现有的基于学习的自主驾驶(AD)系统在理解高级信息,推广到罕见事件并提供可解释性方面面临挑战。为了解决这些问题,这项工作采用大型语言模型(LLM)作为需要人常识理解的复杂广告情景的决策组成部分。我们设计了认知途径,以实现LLM的全面推理,并开发将LLM决策转化为可行的驾驶命令的算法 ...
0 0 0 2025/09/03 arXiv:2310.03026v3 库奇
通过反馈改善未来的表演政策,增强学习(RL)已成为实践中的标准实践。但是,RL算法可能需要广泛的试用和错误相互作用,以收集有用的反馈以进行改进。另一方面,大型语言模型(LLM)的最新发展展现了语言理解和发电方面令人印象深刻的能力,但它们在计划任务的探索和自我完善能力方面缺乏,缺乏基于反馈的自主性来完善反应的能力 ...
0 0 0 2025/09/03 arXiv:2402.16181v1 库奇
大型语言模型(LLM)的快速发展驱动了能够自主执行复杂任务的代理系统的开发。尽管具有令人印象深刻的功能,但LLM仍受其内部知识边界的限制。为了克服这些局限性,已经提出了深入研究的范式,其中代理商积极参与计划,检索和综合,以产生基于Web的证据以基于Web的证据为基础的全面和忠实的分析报告 ...
0 0 0 2025/09/03 arXiv:2508.12752v1 Abidalswark
3D视觉的基础模型最近在3D感知中表现出了显着的功能。但是,由于推理时间效率低下,将这些模型扩展到长期图像输入仍然是一个重大挑战。在这项工作中,我们介绍了VGGT的详细分析,VGGT是一种最先进的馈送视觉几何模型,并识别其主要瓶颈 ...
0 0 0 2025/09/03 arXiv:2509.02560v1 xubiao
大型语言模型 (LLM) 已展现出令人印象深刻的推理能力,特别是在解决文本数学问题方面。然而,现有的开源图像指令微调数据集(每张图像包含有限的问答对)并没有充分利用视觉信息来增强多模态 LLM (MLLM)的多模态数学推理能力。为了弥补这一差距,我们通过从 24 个现有数据集中收集 40K 带有问答对的高质量图像并合成 320K 新对,创建 MathV360K 数据集,从而解决了缺乏高质量、多样化 ...
0 0 0 2025/09/03 arXiv:2406.17294v3 15966829631
视觉语言模型 (VLM) 是处理和理解文本和图像的强大工具。我们研究了 LLaVA(一种著名的 VLM)的语言模型组件中视觉标记的处理。我们的方法侧重于分析对象信息的本地化、跨层视觉标记表示的演变以及集成视觉信息进行预测的机制 ...
0 0 0 2025/09/03 arXiv:2410.07149v2 15966829631
量化是通过降低记忆足迹和提高计算效率来加速LLM推断LLM的关键技术。在各种方案中,4位重量和8位激活量化(W4A8)在准确性和性能之间提供了很强的平衡。但是,由于CUDA核心的效率低下,现有的W4A8 GEMM内核在实践中缺乏,这无法与张量核心的高吞吐量保持同步 ...
0 0 0 2025/09/03 arXiv:2509.01229v1 felixslu
本文介绍了Step-Adio〜2,这是一种端到端的多模式大型语言模型,旨在行业强度的音频理解和语音对话。通过整合潜在的音频编码器和以推理为中心的增强学习(RL),Step-Adio 2可以在自动语音识别(ASR)和音频理解中实现有希望的表现。为了促进真正的端到端语音对话,Step-Audio 2将离散的音频 Token 的产生结合到语言建模中,从而大大提高了其对副语言信息(例如说话风格和情感)的响 ...
0 0 0 2025/09/03 arXiv:2507.16632v3 lichenbook

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)