我们介绍了视觉注意力蒸馏(VI-LAD),这是一种新颖的方法,用于将社会符合性的导航知识从大型视觉语言模型(VLM)提炼为实时机器人导航的轻质 Transformer 模型。与依靠专家演示或人类宣传数据集的传统方法不同,VI-LAD在中间层表示级别(即 ...
0 0 0 2025/08/21 arXiv:2503.09820v1 weanhear
基于大型语言模型(LLM)的列表排名在许多段落排名任务中表现出卓越的性能。随着大型推理模型的发展,许多研究表明,测试时间期间的分步推理有助于提高列表的排名绩效。但是,由于缺乏推理密集型培训数据,在许多复杂的排名方案中,现有的读者表现较差,而推理密集型重读者的排名能力仍然很大程度上欠发达 ...
0 0 0 2025/08/21 arXiv:2508.07050v1 metaAAA
无分类器指导(CFG)是现代扩散模型中广泛使用的技术,可提高样品质量和及时粘附。然而,通过对高斯混合溶液建模的经验分析,我们观察到CFG产生的次优结果与地面真相之间存在差异。该模型过度依赖这些次优的预测通常会导致语义不一致和低质量输出 ...
0 0 0 2025/08/21 arXiv:2508.12880v1 ziyang
随着用于灵活地将信息处理为字符串的大型语言模型 (LLM) 的兴起,回归是一个自然的应用,特别是通过将字符串表示预处理到 LLM 嵌入中作为度量预测的下游特征。在本文中,我们对基于嵌入的回归进行了首次全面研究,并证明 LLM 嵌入作为特征可以比使用传统特征工程更好地处理高维回归任务。这种回归性能可以部分解释为数字数据上的 LLM 嵌入本质上保留了特征空间上的 Lipschitz 连续性 ...
0 0 0 2025/08/21 arXiv:2411.14708v3 HeiHuZi
多模式大语模型(MLLM)在文档理解方面取得了重大进展。但是,文档图像的信息密度性质仍然带来挑战,因为大多数查询仅取决于少数相关区域,其余的是多余的。现有的一通MLLM在不考虑查询相关性的情况下处理整个文档图像,通常不专注于关键区域并产生不忠的响应 ...
0 0 0 2025/08/21 arXiv:2505.18603v1 福福福
本文引入了用于大规模图像相似性检测的新基准。该基准用于Neurips'21(ISC2021)的图像相似性挑战。目的是确定查询图像是否是1〜百万的参考语料库中任何图像的修改副本 ...
0 0 0 2025/08/21 arXiv:2106.09672v4 13366395289
视频生成需要对广阔的时空空间进行建模,这需要大量的计算资源和数据使用。为了降低复杂性,流行的方法采用级联架构来避免全分辨率的直接训练。尽管减少了计算需求,但每个子阶段的单独优化阻碍了知识共享并牺牲了灵活性 ...
0 0 0 2025/08/21 arXiv:2410.05954v2 smallz
推荐模型很难评估,尤其是在离线设置下。在本文中,我们对推荐系统离线评估中的数据泄漏问题进行了全面而批判性的分析。数据泄漏是由于未观察到全球时间表在评估推荐人时引起的,e ...
0 0 0 2025/08/21 arXiv:2010.11060v4 sbjincheng

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)