一译 —— 文档和论文翻译、对照阅读、讨论和社区

Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models

评估大型语言模型（LLM）对人类的理解，而不仅仅是文本，这仍然是一个开放的挑战。为了弥合差距，我们引入了有声学代理作为法官（SAGE），这是一个自动化评估框架，可衡量LLM的高阶社交认知。 Sage实例化了一种有知觉的代理，该代理在互动过程中模拟了类似人类的情感变化和内在思想，从而在多转交谈中对测试模型进行了更现实的评估 ...

0 0 0 2025/06/24 arXiv:2505.02847v3 会魔法的年轻人

Restoration by Generation with Constrained Priors

降级扩散模型的固有生成能力使它们非常适合图像恢复任务，其中目的是在生成空间内找到与输入图像相似的生成空间中的最佳高质量图像。我们提出了一种通过简单地将噪声添加到要恢复的输入图像然后然后去诺的方法来调整图像恢复的预处理扩散模型的方法。我们的方法基于这样的观察，即需要限制生成模型的空间 ...

0 0 0 2025/06/24 arXiv:2312.17161v2 Veggie

Visual-O1: Understanding Ambiguous Instructions via Multi-modal Multi-turn Chain-of-thoughts Reasoning

随着大规模模型的发展，语言指令越来越多地用于多模式任务。由于人类的语言习惯，这些说明通常包含在现实情况下的歧义，因此需要将视觉上下文或常识的整合以进行准确的解释。但是，即使是高度智能的大型模型也对模棱两可的说明显示出显着的性能限制，在这种指示中，弱势歧义的推理能力可能导致灾难性错误 ...

0 0 0 2025/06/24 arXiv:2410.03321v1 syhhh

MedThink: Explaining Medical Visual Question Answering via Multimodal Decision-Making Rationale

对基于图像的医学查询的语言回答的医学视觉问题答案（MEDVQA）代表了一项艰巨的任务和医疗保健方面的重大进步。它有助于医学专家迅速解释医学图像，从而更快，更准确地诊断。但是，现有的MEDVQA解决方案的模型可解释性和透明度通常受到限制，在理解其决策过程时面临着挑战 ...

0 0 0 2025/06/24 arXiv:2404.12372v2 keve

Making Sense of the Unsensible: Reflection, Survey, and Challenges for XAI in Large Language Models Toward Human-Centered AI

随着大型语言模型（LLM）越来越多地部署在医疗保健，法律和教育等敏感领域中，对透明，可解释和负责的AI系统的需求变得更加紧迫。可解释的AI（XAI）充当了LLM不透明推理与依靠其在高风险决策中产出的各种利益相关者之间的关键界面。本文对LLM的XAI进行了全面的反思和调查，围绕三个指导性问题提出：为什么解释性必不可少？它需要什么技术和道德方面？它如何履行其在现实部署中的作用？我们重点介绍了LLM中解 ...

0 0 0 2025/06/24 arXiv:2505.20305v1 oneyhu

Simulating Human Strategic Behavior: Comparing Single and Multi-agent LLMs

在为人们制定政策，计划或设计时，设计师预见人们可能推理和行为的所有方式，这是一项挑战。最近，大型语言模型（LLM）已被证明能够模拟人类的推理。我们通过测量LLM在Ultimatum Game中模拟战略推理的能力来扩展这项工作，这是一个经典的经济学谈判实验 ...

0 0 0 2025/06/24 arXiv:2402.08189v2 lurenv

Universality of Layer-Level Entropy-Weighted Quantization Beyond Model Architecture and Size

我们提出了一种新型的方法，用于选择性模型量化，该方法超越了使用熵加权量化（EWQ）的大语言模型（LLM）（EWQ）的大型语言模型（LLMS）的体系结构的局限性。通过分析跨 Transformer 块的熵分布，EWQ确定可以安全量化哪些块而不会导致显着的性能降解，而与模型架构或大小无关。我们的方法的表现优于统一的量化方法，维持0范围内的大量多任务语言理解（MMLU）精度得分 ...

0 0 0 2025/06/24 arXiv:2503.04704v2 Copper_Shen

MoQAE: Mixed-Precision Quantization for Long-Context LLM Inference via Mixture of Quantization-Aware Experts

优化大型语言模型（LLMS）的长篇小说推理的主要挑战之一在于键值（KV）缓存的高内存消耗。现有的方法（例如量化）已经证明了减少记忆使用情况的有希望的结果。但是，当前的量化方法不能同时考虑有效性和效率 ...

0 0 0 2025/06/24 arXiv:2506.07533v1 jingxi

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）