近年来,在大型语言模型(LLM)推理中取得了重大进展,这在很大程度上是由于采用经过思考链(COT)方法,从而使模型能够在达到最终答案之前生成中间的推理步骤。在这些进步的基础上,最先进的LLM会进行指导,以便在回答与推理有关的问题时提供长长而详细的COT途径。但是,人类自然是认知苦难者,并将促使语言模型提供相当短的反应,从而与COT推理产生重大冲突 ...
0 0 0 2025/05/15 arXiv:2504.09586v1 mc1a17
当前对LLM中常识性推理的评估受到自然语言语料库的稀缺性,其结构化注释用于推理任务。为了解决这个问题,我们介绍了通过知识驱动的合成数据策略生成的Knowlogic,这是一种基准。 Knowlogic整合了多样的常识性知识,合理的场景和各种类型的逻辑推理 ...
0 0 0 2025/05/15 arXiv:2503.06218v1 lalaxiao
最近人们探索了视觉基础模型来构建通用视觉系统。然而,通过将实例级任务转换为对象-词对齐来驱动的主流范式带来了严重的跨模态交互,这在促进对象检测和视觉基础方面并不有效。另一条专注于像素级任务的工作经常会遇到事物和事物之间存在较大的注释差距,并且会遭受前景对象和背景类分割之间的相互干扰... ...
0 1 0 2025/05/15 arXiv:2312.02153v1 sailingsan
近年来已经提出了各种对比学习方法,并取得了重大的经验成功。尽管有效且普遍存在,但对时间序列数据的探索较少。对比度学习的一个关键组成部分是选择适当的增强,强加一些先验来构建可行的积极样本,以便可以训练编码器以学习强大和歧视性的表示 ...
0 0 0 2025/05/15 arXiv:2303.11911v1 CoooolTu
动作自定义涉及生成视频,主题执行由输入控制信号决定的动作。当前方法使用姿势引导或全局运动定制,但受到对空间结构的严格限制的限制,例如布局,骨架和观点一致性,从而降低了各种主题和场景的适应性。为了克服这些局限性,我们提出了FlexIACT,将动作从参考视频转移到任意目标图像 ...
0 0 0 2025/05/15 arXiv:2505.03730v1 suxuefeng
跨视图和交叉模式的图像匹配在多模式感知中起着关键作用。在实践中,由不同的成像系统/样式引起的方式差距为匹配任务带来了巨大的挑战。现有的作品尝试提取特定方式的不变特征,并在有限的数据集上进行训练,显示出较差的概括 ...
0 0 0 2025/05/15 arXiv:2412.19412v2 domoco
视觉文档检索(VDR)是一个新兴的研究领域,重点是直接编码和检索文档图像,绕开了对光学角色识别(OCR)的依赖,以进行文档搜索。 Colpali引入了最近的VDR,该进步通过晚期相互作用机制显着提高了检索有效性。 Colpali的方法表明,对现有基线的现有基线的绩效取得了可观的提高,这些基线不会在既定的基准上使用较晚的互动 ...
0 0 0 2025/05/15 arXiv:2505.07730v1 arthur
数据质量已成为通过大型语言模型(LLM)快速发展增强模型性能的关键因素。模型驱动的数据过滤已越来越成为获取高质量数据的主要方法。但是,它仍然面临两个主要挑战:(1)缺乏有效的数据验证策略使得很难及时提供有关数据质量的反馈; (2)选择培训分类器的种子数据缺乏明确的标准,并且在很大程度上依赖于人类的专业知识,从而引入了一定程度的主观性 ...
0 0 0 2025/05/15 arXiv:2505.05427v1 the_highflyer

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)