编程通常涉及将详细和复杂的规格转换为代码,在此过程中,开发人员通常会利用视觉辅助工具来更有效地传达概念。尽管大型多模型模型的最新发展已经在视觉推理和数学任务中表现出了非凡的能力,但研究这些模型是否可以有效地解释代码生成的视觉元素的工作很少。为此,我们提出了MMCode,这是第一个用于评估视觉上富裕环境中算法解决问题技能的多模式编码数据集 ...
近年来,大型语言模型(LLMS)在软件工程中的应用扩展到更复杂的存储库级任务。 GitHub问题解决是这些任务之间的关键挑战。尽管最近的方法在此任务上取得了进展,但他们将重点放在问题中的文本数据上,忽略了视觉数据 ...
从损坏的文档中删除各种降级,大大受益于数字化,下游文档分析和可读性。以前的方法通常使用专用模型独立处理每个修复任务,从而导致繁琐且高度复杂的文档处理系统。尽管最近的研究试图统一多个任务,但由于手工制作的提示和大量预处理,它们通常会遭受有限的可扩展性,并且无法完全利用共享体系结构中的任务间协同作用 ...
时间序列预测使用历史数据来预测未来的趋势,利用过去的观察和可用特征之间的关系。在本文中,我们提出了RAFT,这是一种检索仪式的时间序列预测方法,以提供足够的电感偏见并补充模型的学习能力。当预测随后的时间范围时,我们直接从培训数据集中检索了与输入最相似的模式,并利用这些候选者的未来值以及输入并获得预测 ...
在本文中,我们提出了CodeSCM,即一种结构性因果模型(SCM),用于使用大语言模型(LLMS)分析多模式代码生成。通过将干预措施应用于CODESCM,我们衡量了模型上不同及时模态(例如自然语言,代码和输入输出示例)的因果关系。 CODESCM引入了潜在的调解器变量,以将多模式代码生成提示的代码和自然语言语义分开 ...
在敏感领域中快速采用深度学习带来了巨大的好处。但是,这种广泛的采用也引起了严重的脆弱性,尤其是模型倒置(MI)攻击,对个人数据的隐私和完整性构成了重大威胁。这些攻击在生物识别技术,医疗保健和金融等应用中的越来越多的流行率迫切需要了解其机制,影响和防御方法 ...
多模式大语言模型(MLLM)的兴起刺激了其在自动驾驶中的应用。最近基于MLLM的方法通过学习从感知到行动的直接映射,忽略世界动态以及行动与世界动态之间的关系来执行行动。相比之下,人类拥有世界模型,使他们能够基于3D内部视觉表示并相应地计划行动来模拟未来状态 ...
将网页设计转换为代码(设计到代码)在前端开发人员的用户界面开发(UI)开发中起着至关重要的作用,从而弥合了视觉设计和功能实现之间的差距。尽管最近的多模式大型语言模型(MLLM)在设计对代码任务上显示出很大的潜力,但它们通常无法准确保留代码生成期间的布局。为此,我们从人类认知中的经营链(COT)推理中汲取了灵感,并提出了LatCoder,这是一种新颖的方法,可以增强在代码生成期间通过以下布局(LAT ...