一译 —— 文档和论文翻译、对照阅读、讨论和社区

LanguageMPC: Large Language Models as Decision Makers for Autonomous Driving

现有的基于学习的自主驾驶（AD）系统在理解高级信息，推广到罕见事件并提供可解释性方面面临挑战。为了解决这些问题，这项工作采用大型语言模型（LLM）作为需要人常识理解的复杂广告情景的决策组成部分。我们设计了认知途径，以实现LLM的全面推理，并开发将LLM决策转化为可行的驾驶命令的算法 ...

0 0 0 2025/09/03 arXiv:2310.03026v3 库奇

How Can LLM Guide RL? A Value-Based Approach

通过反馈改善未来的表演政策，增强学习（RL）已成为实践中的标准实践。但是，RL算法可能需要广泛的试用和错误相互作用，以收集有用的反馈以进行改进。另一方面，大型语言模型（LLM）的最新发展展现了语言理解和发电方面令人印象深刻的能力，但它们在计划任务的探索和自我完善能力方面缺乏，缺乏基于反馈的自主性来完善反应的能力 ...

0 0 0 2025/09/03 arXiv:2402.16181v1 库奇

Deep Research: A Survey of Autonomous Research Agents

大型语言模型（LLM）的快速发展驱动了能够自主执行复杂任务的代理系统的开发。尽管具有令人印象深刻的功能，但LLM仍受其内部知识边界的限制。为了克服这些局限性，已经提出了深入研究的范式，其中代理商积极参与计划，检索和综合，以产生基于Web的证据以基于Web的证据为基础的全面和忠实的分析报告 ...

0 0 0 2025/09/03 arXiv:2508.12752v1 Abidalswark

FastVGGT: Training-Free Acceleration of Visual Geometry Transformer

3D视觉的基础模型最近在3D感知中表现出了显着的功能。但是，由于推理时间效率低下，将这些模型扩展到长期图像输入仍然是一个重大挑战。在这项工作中，我们介绍了VGGT的详细分析，VGGT是一种最先进的馈送视觉几何模型，并识别其主要瓶颈 ...

0 0 0 2025/09/03 arXiv:2509.02560v1 xubiao

Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models

大型语言模型 (LLM) 已展现出令人印象深刻的推理能力，特别是在解决文本数学问题方面。然而，现有的开源图像指令微调数据集（每张图像包含有限的问答对）并没有充分利用视觉信息来增强多模态 LLM （MLLM）的多模态数学推理能力。为了弥补这一差距，我们通过从 24 个现有数据集中收集 40K 带有问答对的高质量图像并合成 320K 新对，创建 MathV360K 数据集，从而解决了缺乏高质量、多样化 ...

0 0 0 2025/09/03 arXiv:2406.17294v3 15966829631

Towards Interpreting Visual Information Processing in Vision-Language Models

视觉语言模型 (VLM) 是处理和理解文本和图像的强大工具。我们研究了 LLaVA（一种著名的 VLM）的语言模型组件中视觉标记的处理。我们的方法侧重于分析对象信息的本地化、跨层视觉标记表示的演变以及集成视觉信息进行预测的机制 ...

0 0 0 2025/09/03 arXiv:2410.07149v2 15966829631

LiquidGEMM: Hardware-Efficient W4A8 GEMM Kernel for High-Performance LLM Serving

量化是通过降低记忆足迹和提高计算效率来加速LLM推断LLM的关键技术。在各种方案中，4位重量和8位激活量化（W4A8）在准确性和性能之间提供了很强的平衡。但是，由于CUDA核心的效率低下，现有的W4A8 GEMM内核在实践中缺乏，这无法与张量核心的高吞吐量保持同步 ...

0 0 0 2025/09/03 arXiv:2509.01229v1 felixslu

Step-Audio 2 Technical Report

本文介绍了Step-Adio〜2，这是一种端到端的多模式大型语言模型，旨在行业强度的音频理解和语音对话。通过整合潜在的音频编码器和以推理为中心的增强学习（RL），Step-Adio 2可以在自动语音识别（ASR）和音频理解中实现有希望的表现。为了促进真正的端到端语音对话，Step-Audio 2将离散的音频 Token 的产生结合到语言建模中，从而大大提高了其对副语言信息（例如说话风格和情感）的响 ...

0 0 0 2025/09/03 arXiv:2507.16632v3 lichenbook

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）