自主驾驶系统中的视觉语言动作(VLA)模型最近通过将多模式感知与决策能力整合在一起,证明了变革潜力。但是,决策过程的可解释性和一致性和作用序列的合理性在很大程度上仍未得到充实。为了解决这些问题,我们提出了Autodrive-r $^2 $,这是一个新颖的VLA框架,通过通过经营链(COT)处理和加固学习(RL)来增强自主驾驶系统的推理和自我反射能力 ...
0 0 0 2025/09/17 arXiv:2509.01944v1 qwerty14523
我们提出了点亮,视觉教学调整(VIT)的进步。尽管VIT为多模式LLMS(MLLM)配备了有希望的多模式功能,但当前用于VIT的设计选择通常会导致过度拟合和快捷方式学习,并有可能降低性能。这一差距源于对跟随教学能力的过分强调,同时忽略了对视觉信息的主动理解 ...
0 0 0 2025/09/17 arXiv:2503.22215v1 bage
本文通过利用控制屏障功能(CBF)来确保用户不可避免的文本生成,提出了一个基于控制的框架,以对齐大语言模型(LLM)。呈现的框架将基于CBF设计的安全过滤器应用于基线LLM的输出生成,即 ...
0 0 0 2025/09/17 arXiv:2408.15625v2 user
本文解决了语言指导机器人团队的任务计划问题。任务用自然语言(NL)表示,要求机器人在各个位置和语义对象上应用其功能。最近的几项工作通过利用预先培训的大语言模型(LLM)来设计有效的多机器人计划,从而解决了类似的计划问题 ...
0 0 0 2025/09/17 arXiv:2402.15368v4 蔡明方
具有扩展上下文Windows的大型语言模型(LLM)面临着重大的性能障碍。尽管缓存键值(KV)状态对于避免冗余计算至关重要,但长篇小说caches的存储足迹迅速超过了GPU内存容量,迫使生产系统在跨内存层次结构中采用层次缓存。但是,将大型缓存的上下文转移回GPU会引入严重的性能瓶颈:从分类布局中碎片的I/O防止了完整的带宽利用率,并且现有调度程序未能考虑缓存延迟的延迟,从而使系统加载限制,而不是计 ...
0 0 0 2025/09/17 arXiv:2508.18572v1 tea5
传统上,3D场景的创建既是劳动密集型又昂贵的,要求设计师精心配置3D资产和环境。生成AI的最新进展,包括文本到3D和图像到3D方法,已大大降低了此过程的复杂性和成本。但是,当前用于编辑复杂3D场景的技术继续依赖于一般交互的多步骤,2D-3D投影方法和基于扩散的技术,这些技术通常在控制方面缺乏精度和妨碍实时性能 ...
0 0 0 2025/09/17 arXiv:2412.01583v2 qzfm
在本文中,我们提出了 Flash3D,这是一种从单个图像进行场景重建和新颖视图合成的方法,该方法非常通用且高效。为了具有普适性,我们从单目深度估计的“基础”模型开始,并将其扩展到完整的 3D 形状和外观重建器。为了提高效率,我们将此扩展基于前馈高斯分布 ...
0 0 0 2025/09/17 arXiv:2406.04343v2 qzfm
大型语言模型(LLMS)的部署由于其巨大的记忆足迹,低算术强度和严格的延迟要求而提出了重大挑战,尤其是在自回归解码阶段。在这些内存的工作负载中,传统的以计算为中心的加速器(例如GPU)遭受严重资源不足和记忆带宽的瓶颈。为了克服这些基本局限性,我们提出了HPIM,HPIM是第一个以内存为中心的异构过程(PIM)加速器,该加速器集成了专为LLM推断设计的SRAM-PIM和HBM-PIM子系统 ...
0 0 0 2025/09/17 arXiv:2509.12993v1 jane88

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)