Transformer 倾向于过度关注不相关的上下文。在这项工作中,我们引入了 Diff Transformer,它可以在消除噪音的同时增强对相关上下文的关注。具体来说,差分注意力机制将注意力分数计算为两个单独的 softmax 注意力图之间的差异 ...
0 1 0 2025/04/09 arXiv:2410.05258v2 yanyu
随着我们扩展到更大的机器学习模型,频繁的同步需求在数据并行方法中固有的需求产生了明显的放缓,这对进一步的扩展构成了关键的挑战。最近的工作开发了一种方法(DILOCO),可以放松同步需求而不会损害模型质量。但是,这些作品并未仔细分析迪洛科的行为如何随模型大小而变化 ...
0 0 0 2025/04/09 arXiv:2503.09799v1 kkkk
多模式大语言模型的最新进展推动了能够理解和产生的联合概率模型的发展。但是,我们已经确定,由于图像离散化或扩散剥离步骤,最近的方法不可避免地会遭受理解任务过程中图像信息的丢失。为了解决这个问题,我们提出了一种新型的多模式自动回归(MMAR)概率建模框架 ...
0 0 0 2025/04/09 arXiv:2410.10798v2 user
近年来,由于它们能够在变量之间捕获依赖性和跨时间点,因此时空图神经网络(GNN)在时间序列分析中引起了极大的兴趣。因此,提出的系统文献综述的目的是为GNN的各种建模方法和应用程序域提供全面的概述,以进行时间序列分类和预测。进行了数据库搜索,并选择了150多个期刊论文以详细检查该领域的最新技术 ...
0 0 0 2025/04/09 arXiv:2410.22377v1 bdcdjg
多模式大型语言模型(MLLM)扩展了大语言模型(LLMS)以处理多模式信息,从而使它们能够生成对图像text输入的响应。 MLLM已通过插件播放而无需微调而纳入了多种模式应用中,例如自动驾驶和医疗诊断。这种部署范式增加了MLLM对后门攻击的脆弱性 ...
0 0 0 2025/04/09 arXiv:2503.16023v1 zer
增强学习已被证明可以改善大语言模型的性能。但是,诸如RLHF或RLAIF之类的传统方法将问题视为单步。随着焦点转向更复杂的推理和代理任务,语言模型必须在生成解决方案之前采取多个文本生成,推理和环境互动的步骤 ...
0 0 0 2025/04/09 arXiv:2504.04736v1 chrisxiong
培训有效的AI代理进行多转交互作用需要高质量的数据,以捕获现实的人类代理动力学,但是手动收集的数据却很少且昂贵。我们介绍了Apigen-MT,这是一个两阶段的框架,生成可验证和多样化的多转变代理数据。在第一阶段,我们的代理管道通过基本操作产生详细的任务蓝图,利用LLM审阅者委员会和迭代反馈循环 ...
0 0 0 2025/04/08 arXiv:2504.03601v1 niuzai
图像匹配是一个基本的计算机视觉问题。尽管基于学习的方法在现有基准上实现了最先进的性能,但它们概括为野外图像。这样的方法通常需要为不同场景类型训练单独的模型,并且当场景类型预先知道时是不切实际的 ...
0 0 0 2025/04/08 arXiv:2402.11095v1 ss

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)