大型语言模型(LLMS)的不断增长的上下文长度对有效的推断构成了重大挑战,这主要是由于GPU记忆和带宽约束。我们提出了Retroinfer,这是一个新型系统,将键值(KV)缓存重新概念化为矢量存储系统,该系统利用了固有的注意力稀疏性,以加速长篇小说LLM推断。从本质上讲,波浪指数是一种注意力感知的向量指数,可以通过诸如三方关注近似,准确的注意力估计和分段聚类等技术有效,准确地检索关键 Token  ...
0 0 0 2025/05/21 arXiv:2505.02922v1 tea5
多模式奖励模型(MRMS)在增强多模式大语模型(MLLM)的性能方面起着至关重要的作用。尽管最近的进步主要集中在改善MRMS的模型结构和培训数据上,但对长期推理能力的有效性的奖励模型以及如何激活MRM中的这些功能的探索有限。在本文中,我们探讨了如何使用加强学习(RL)来改善奖励建模 ...
0 0 0 2025/05/21 arXiv:2505.02835v2 jecc
在现代搜索系统中,搜索引擎通常会通过各种面板或组件向用户提出相关查询,从而帮助提高其信息需求。传统上,这些建议在很大程度上依靠历史搜索日志来构建模型,这些模型遭受了冷启动或长尾问题的困扰。此外,通过特定的设计分别研究了诸如查询建议,完成或澄清之类的任务,这些设计缺乏通用性,并且阻碍了对新应用的适应 ...
0 0 0 2025/05/21 arXiv:2504.10208v2 lifeicheng
扩散模型(DMS)已成为跨不同领域生成任务的主要选择。但是,它们对多个顺序前向的依赖会显着限制实时性能。先前的加速方法主要集中于减少采样步骤的数量或重复使用中间结果,由于卷积U-NET结构的限制,未能利用图像内空间区域的变化 ...
0 0 0 2025/05/21 arXiv:2502.10389v1 allen1000
扩散策略已成为建筑视觉语言动作(VLA)模型的主流范式。尽管它们表现出强大的机器人控制能力,但其训练效率仍然是最佳的。在这项工作中,我们确定了条件扩散政策培训中的基本挑战:当难以区分生成条件时,训练目标会退化为建模边际行动分布,这是一种现象,我们定期损失崩溃 ...
0 0 0 2025/05/21 arXiv:2505.11123v1 蔡明方
视觉语言动作(VLA)模型最近在机器人技术领域变得非常突出。 VLA模型可以通过单个端到端的神经网络从视觉观察和人类指示中直接从视觉观察和人类指示中产生机器人动作,从而利用视觉语言基础模型。尽管它们有效,但当前的VLA模型通常仅接受一种形式的人类提示,语言说明,这可能会限制其在开放式的人类机器人相互作用中的适用性 ...
0 0 0 2025/05/21 arXiv:2505.11214v1 蔡明方
Spike摄像机具有独特的传感功能,但它们稀疏,异步输出挑战语义理解,尤其是对于Spike视频语言对准(Spike-VLA),由于模态不匹配,诸如剪辑不足之类的模型。我们介绍了Spklip,这是专门用于Spike-VLA的第一个体系结构。 Spklip采用了分层尖峰提取器,可适应事件流中的多尺度时间动态,并使用Spike-Text对比度学习将Spike Video直接与语言保持一致,从而有效地学习 ...
0 0 0 2025/05/21 arXiv:2505.12656v1 蔡明方
利用预审前的视觉模型(VLM)将语言指令和视觉观察映射到原始的低级动作,视觉语言动作模型(VLAS)具有实现通用机器人系统的巨大希望。尽管有进步,但现有的VLA倾向于微不足道地将任务 - 意外视觉特征与动作相关联,从而将其概括能力限制在培训数据之外。为了应对这一挑战,我们提出了固有的空间推理(INSPIRE),这是一种简单而有效的方法,可以通过提高VLA的空间推理能力来减轻虚假相关性的不利影响 . ...
0 0 0 2025/05/21 arXiv:2505.13888v1 蔡明方

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)