感知和理解高度动态和不断变化的环境是机器人自主权的关键能力。尽管已经在开发机器人姿势准确的动态大满贯方法方面取得了长足的进步,但较少的重点是构建机器人环境的密集时空表示。对场景及其在时间演变的详细理解对于长期的机器人自主权至关重要,对于需要长期推理的任务至关重要,例如在与人类和其他代理商共享的环境中有效运行,因此要经受短期和长期的动态 ...
0 0 0 2025/08/21 arXiv:2402.13817v2 weanhear
我们为树生的 Transformer 架构和培训策略提供了建议。该体系结构以多种分辨率处理数据,并具有沙漏形状,中间层处理的 Token 少于外层。与卷积网络类似,我们引入了更长的范围跳过连接到完成此多分辨率方法 ...
0 0 0 2025/08/21 arXiv:2502.04762v1 happy
社会导航是自治人(例如机器人)在其他智能代理(例如人类)的面前以“社会符合社会规定”方式导航的能力。随着人口稠密环境中自动导航移动机器人的出现(例如 ...
0 0 0 2025/08/21 arXiv:2203.15041v2 weanhear
我们介绍了视觉注意力蒸馏(VI-LAD),这是一种新颖的方法,用于将社会符合性的导航知识从大型视觉语言模型(VLM)提炼为实时机器人导航的轻质 Transformer 模型。与依靠专家演示或人类宣传数据集的传统方法不同,VI-LAD在中间层表示级别(即 ...
0 0 0 2025/08/21 arXiv:2503.09820v1 weanhear
基于大型语言模型(LLM)的列表排名在许多段落排名任务中表现出卓越的性能。随着大型推理模型的发展,许多研究表明,测试时间期间的分步推理有助于提高列表的排名绩效。但是,由于缺乏推理密集型培训数据,在许多复杂的排名方案中,现有的读者表现较差,而推理密集型重读者的排名能力仍然很大程度上欠发达 ...
0 0 0 2025/08/21 arXiv:2508.07050v1 metaAAA
无分类器指导(CFG)是现代扩散模型中广泛使用的技术,可提高样品质量和及时粘附。然而,通过对高斯混合溶液建模的经验分析,我们观察到CFG产生的次优结果与地面真相之间存在差异。该模型过度依赖这些次优的预测通常会导致语义不一致和低质量输出 ...
0 0 0 2025/08/21 arXiv:2508.12880v1 ziyang
随着用于灵活地将信息处理为字符串的大型语言模型 (LLM) 的兴起,回归是一个自然的应用,特别是通过将字符串表示预处理到 LLM 嵌入中作为度量预测的下游特征。在本文中,我们对基于嵌入的回归进行了首次全面研究,并证明 LLM 嵌入作为特征可以比使用传统特征工程更好地处理高维回归任务。这种回归性能可以部分解释为数字数据上的 LLM 嵌入本质上保留了特征空间上的 Lipschitz 连续性 ...
0 0 0 2025/08/21 arXiv:2411.14708v3 HeiHuZi
多模式大语模型(MLLM)在文档理解方面取得了重大进展。但是,文档图像的信息密度性质仍然带来挑战,因为大多数查询仅取决于少数相关区域,其余的是多余的。现有的一通MLLM在不考虑查询相关性的情况下处理整个文档图像,通常不专注于关键区域并产生不忠的响应 ...
0 0 0 2025/08/21 arXiv:2505.18603v1 福福福

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)