一译 —— 文档和论文翻译、对照阅读、讨论和社区

LoHoVLA: A Unified Vision-Language-Action Model for Long-Horizon Embodied Tasks

现实世界中体现的代理人将面临长马利琴的任务，其特征是高级目标，要求超出单一动作的多步骤解决方案。成功浏览这些需要高级任务计划（即 ...

0 0 0 2025/06/04 arXiv:2506.00411v1 蔡明方

Towards a Generalizable Bimanual Foundation Policy via Flow-based Video Prediction

由于较大的动作空间和对协调的手臂运动的需求，学习可推广的双人操纵政策对于具体的代理人来说是极具挑战性的。现有的方法依靠视觉语言行动（VLA）模型来获得双人政策。但是，从单臂数据集或预训练的VLA模型转移知识通常无法有效地概括，这主要是由于双臂数据的稀缺性以及单臂和双臂操纵之间的基本差异 ...

0 0 0 2025/06/04 arXiv:2505.24156v1 蔡明方

Review-Then-Refine: A Dynamic Framework for Multi-Hop Question Answering with Temporal Adaptability

检索增强的生成（RAG）框架已成为多跳问答（QA）任务的有前途的解决方案，因为它使大型语言模型（LLMS）能够合并外部知识并减轻其固有的知识缺陷。尽管取得了这种进步，但通常跟随检索到阅读范式的现有的抹布框架通常会在多跳质量质量质量质量检查中使用时间信息而苦苦挣扎，因为它很难检索和综合准确的时间相关信息。为了应对挑战，本文提出了一个名为“评论”的新框架，旨在通过时间信息来提高多跳QA场景中的LLM性 ...

0 0 0 2025/06/04 arXiv:2412.15101v1 Shmily

GaussianFusion: Gaussian-Based Multi-Sensor Fusion for End-to-End Autonomous Driving

多传感器融合对于改善端到端自动驾驶系统的性能和鲁棒性至关重要。现有方法主要通过几何变换采用基于注意力的平坦融合或鸟类视图融合。但是，这些方法通常会受到有限的可解释性或密集的计算开销的困扰 ...

0 0 0 2025/06/04 arXiv:2506.00034v1 longgangganggang

Stop Looking for Important Tokens in Multimodal Language Models: Duplication Matters More

多模式大型语言模型中的视觉 Token 通常会主导巨大的计算开销，因为与语言方式相比，它们的长度过长。最近的大量方法旨在解决 Token 修剪解决这个问题的问题，该方法首先定义了 Token 的重要性标准，然后在推断过程中修剪了不重要的视觉 Token 。但是，在本文中，我们表明，重要性不是决定是否应该修剪 Token 的理想指标 ...

0 0 0 2025/06/04 arXiv:2502.11494v1 adsadasd

GRIT: Faster and Better Image captioning Transformer Using Dual Visual Features

当前用于图像字幕的最新方法采用基于区域的特征，因为它们提供了对象级信息，对于描述图像的内容至关重要；它们通常由对象检测器（例如更快的R-CNN）提取。但是，他们有几个问题，例如缺乏上下文信息，检测不准确的风险以及高计算成本。可以通过使用基于网格的功能来解决前两个 ...

0 0 0 2025/06/04 arXiv:2207.09666v1 yiweima

3D Gaussian Splatting for Large-scale Surface Reconstruction from Aerial Images

最近，在小规模的3D表面重建中，3D高斯脱落（3DG）表现出了出色的能力。但是，将3DG扩展到大型场景仍然是一个重大挑战。为了解决这一差距，我们提出了一种基于3DGS的新型方法，用于使用空中多视角立体声（MVS）图像，称为空中高斯脱落（AGS） ...

0 0 0 2025/06/04 arXiv:2409.00381v3 zhifeiji

Smoothing Out Hallucinations: Mitigating LLM Hallucination with Smoothed Knowledge Distillation

大型语言模型（LLM）通常会遭受幻觉的困扰，产生事实不正确或未接地的内容，这限制了其在高风险应用中的可靠性。导致幻觉的关键因素是在训练过程中使用硬标签，该训练会执行确定性的监督，鼓励过度自信并无视自然语言固有的不确定性。为了解决这个问题，我们建议通过知识蒸馏（KD）来缓解幻觉，其中教师模型为学生模型提供了平滑的柔软标签，从而减少了过度保存并改善了事实基础 ...

0 0 0 2025/06/04 arXiv:2502.11306v1 lpfgss

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）