一译 —— 文档和论文翻译、对照阅读、讨论和社区

ORSO: Accelerating Reward Design via Online Reward Selection and Policy Optimization

奖励成型对于强化学习至关重要（RL），尤其是对于稀疏奖励可以阻止学习的复杂任务。但是，以计算上有效的方式从一组奖励功能中选择有效的成型奖励仍然是一个开放的挑战。我们提出在线奖励选择和政策优化（ORSO），这是一种新颖的方法，将塑造奖励功能的选择作为在线模型选择问题 ...

0 0 0 2025/06/24 arXiv:2410.13837v3 syhhh

M2BeamLLM: Multimodal Sensing-empowered mmWave Beam Prediction with Large Language Models

本文介绍了一个新型的神经网络框架，称为M2Beamllm，用于毫米波（MMWave）大量多输入多输出（MMIMO）通信系统。 M2BeamllM集成了多模式传感器数据，包括图像，雷达，激光雷达和GPS，利用大型语言模型（LLM）（例如GPT-2）（例如GPT-2）的强大推理能力进行梁预测。通过结合感应数据编码，多模式对准和融合以及监督的微调（SFT），M2Beamllm在标准场景和较少的场景中都表 ...

0 0 0 2025/06/24 arXiv:2506.14532v1 HeiHuZi

Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models

评估大型语言模型（LLM）对人类的理解，而不仅仅是文本，这仍然是一个开放的挑战。为了弥合差距，我们引入了有声学代理作为法官（SAGE），这是一个自动化评估框架，可衡量LLM的高阶社交认知。 Sage实例化了一种有知觉的代理，该代理在互动过程中模拟了类似人类的情感变化和内在思想，从而在多转交谈中对测试模型进行了更现实的评估 ...

0 0 0 2025/06/24 arXiv:2505.02847v3 会魔法的年轻人

Restoration by Generation with Constrained Priors

降级扩散模型的固有生成能力使它们非常适合图像恢复任务，其中目的是在生成空间内找到与输入图像相似的生成空间中的最佳高质量图像。我们提出了一种通过简单地将噪声添加到要恢复的输入图像然后然后去诺的方法来调整图像恢复的预处理扩散模型的方法。我们的方法基于这样的观察，即需要限制生成模型的空间 ...

0 0 0 2025/06/24 arXiv:2312.17161v2 Veggie

Visual-O1: Understanding Ambiguous Instructions via Multi-modal Multi-turn Chain-of-thoughts Reasoning

随着大规模模型的发展，语言指令越来越多地用于多模式任务。由于人类的语言习惯，这些说明通常包含在现实情况下的歧义，因此需要将视觉上下文或常识的整合以进行准确的解释。但是，即使是高度智能的大型模型也对模棱两可的说明显示出显着的性能限制，在这种指示中，弱势歧义的推理能力可能导致灾难性错误 ...

0 0 0 2025/06/24 arXiv:2410.03321v1 syhhh

MedThink: Explaining Medical Visual Question Answering via Multimodal Decision-Making Rationale

对基于图像的医学查询的语言回答的医学视觉问题答案（MEDVQA）代表了一项艰巨的任务和医疗保健方面的重大进步。它有助于医学专家迅速解释医学图像，从而更快，更准确地诊断。但是，现有的MEDVQA解决方案的模型可解释性和透明度通常受到限制，在理解其决策过程时面临着挑战 ...

0 0 0 2025/06/24 arXiv:2404.12372v2 keve

Making Sense of the Unsensible: Reflection, Survey, and Challenges for XAI in Large Language Models Toward Human-Centered AI

随着大型语言模型（LLM）越来越多地部署在医疗保健，法律和教育等敏感领域中，对透明，可解释和负责的AI系统的需求变得更加紧迫。可解释的AI（XAI）充当了LLM不透明推理与依靠其在高风险决策中产出的各种利益相关者之间的关键界面。本文对LLM的XAI进行了全面的反思和调查，围绕三个指导性问题提出：为什么解释性必不可少？它需要什么技术和道德方面？它如何履行其在现实部署中的作用？我们重点介绍了LLM中解 ...

0 0 0 2025/06/24 arXiv:2505.20305v1 oneyhu

Simulating Human Strategic Behavior: Comparing Single and Multi-agent LLMs

在为人们制定政策，计划或设计时，设计师预见人们可能推理和行为的所有方式，这是一项挑战。最近，大型语言模型（LLM）已被证明能够模拟人类的推理。我们通过测量LLM在Ultimatum Game中模拟战略推理的能力来扩展这项工作，这是一个经典的经济学谈判实验 ...

0 0 0 2025/06/24 arXiv:2402.08189v2 lurenv

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）