一译 —— 文档和论文翻译、对照阅读、讨论和社区

PersRM-R1: Enhance Personalized Reward Modeling with Reinforcement Learning

奖励模型（RMS）是现有的训练后方法核心，旨在通过在微调过程中提供反馈信号来使LLM输出与人类价值保持一致。但是，现有的RMS难以捕获细微的，特定于用户的偏好，尤其是在有限的数据和跨不同领域的情况下。因此，我们介绍了PERSRM-R1，这是第一个基于推理的奖励建模框架，专门旨在识别和代表仅一个或几个个人示例中的个人因素 ...

0 0 0 2025/09/08 arXiv:2508.14076v1 liht

The Complexity Trap: Simple Observation Masking Is as Efficient as LLM Summarization for Agent Context Management

大型语言模型（LLM）的代理通过迭代推理，探索和工具使用来解决复杂的任务，该过程可能会导致长期昂贵的上下文历史。虽然诸如OpenHANDS或光标或光标之类的最先进的软件工程（SE）代理使用基于LLM的摘要来解决此问题，但与仅省略较旧的观察值相比，增加的复杂性是否具有切实的性能优势。我们在五种不同模型配置中验证的SWE基础上的SWE代理中对这些策略进行了系统的比较 ...

0 0 0 2025/09/08 arXiv:2508.21433v2 leec

TDVE-Assessor: Benchmarking and Evaluating the Quality of Text-Driven Video Editing with LMMs

文本驱动的视频编辑正在迅速发展，但由于缺乏专用的视频质量评估（VQA）模型，其严格的评估仍然具有挑战性，能够辨别编辑质量的细微差别。为了解决这个关键的差距，我们介绍了TDVE-DB，这是一种用于文本驱动视频编辑的大规模基准数据集。 TDVE-DB由3,857个编辑视频组成，这些视频由12个编辑类别中的12种不同模型产生，并在三个重要的维度上以173,565个人类主观评分注释 ...

0 0 0 2025/09/08 arXiv:2505.19535v1 Lewandofski

Learning from Videos for 3D World: Enhancing MLLMs with 3D Vision Geometry Priors

先前的研究调查了多模式大语言模型（MLLM）通过将其解释为视频来理解3D场景。这些方法通常取决于全面的3D数据输入，例如点云或重建的鸟类视图（BEV）图。在我们的研究中，我们通过直接从视频数据中提高MLLM在3D空间中理解和推理的能力来提高这一领域，而无需额外的3D输入 ...

0 0 0 2025/09/08 arXiv:2505.24625v2 徐小五

SRViT: Vision Transformers for Estimating Radar Reflectivity from Satellite Observations at Scale

我们引入了一个基于 Transformer 的神经网络，以从地球静止卫星图像大规模生成高分辨率（3km）合成雷达反射率。这项工作旨在增强对高影响天气事件的短期对流尺度预测，并有助于对美国的数值天气预测进行数据同化。与卷积方法有限的卷积方法相比，我们的结果表明，各种复合反射率阈值的清晰度和更高精度的提高 ...

0 1 0 2025/09/08 arXiv:2406.16955v2 catcathead

Technical Report: Facilitating the Adoption of Causal Inference Methods Through LLM-Empowered Co-Pilot

在许多领域，从医疗保健和经济学到公共政策，从观察数据中估算治疗效果（TE）是一项关键但复杂的任务。尽管机器学习和因果推断的最新进展已经产生了强大的估计技术，但由于需要深入的因果假设，调整策略和模型选择，其采用仍然有限。在本文中，我们介绍了CATE-B，这是一种开源的副驾驶系统，该系统在代理框架内使用大型语言模型（LLM），以指导用户完成治疗效果估算的端到端过程 ...

0 0 0 2025/09/08 arXiv:2508.10581v1 waterfall666

MagicDrive3D: Controllable 3D Generation for Any-View Rendering in Street Scenes

While controllable generative models for images and videos have achieved remarkable success, high-quality models for 3D scenes, particularly in unbounded scenarios like autonomous driving, remain unde ...

0 0 0 2025/09/08 arXiv:2405.14475v4 zhanguanglun

Why Language Models Hallucinate

就像面临艰苦考试问题的学生一样，大型语言模型有时会猜测不确定的时候，产生合理但不正确的陈述，而不是承认不确定性。这种“幻觉”即使在最先进的系统和破坏信任中也存在。我们认为语言模型幻觉是因为培训和评估程序奖励猜测不确定性，并且我们分析了现代培训管道中幻觉的统计原因 ...

0 1 0 2025/09/08 arXiv:2509.04664v1 takkeri

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）