一译 —— 文档和论文翻译、对照阅读、讨论和社区

Making Sense of the Unsensible: Reflection, Survey, and Challenges for XAI in Large Language Models Toward Human-Centered AI

随着大型语言模型（LLM）越来越多地部署在医疗保健，法律和教育等敏感领域中，对透明，可解释和负责的AI系统的需求变得更加紧迫。可解释的AI（XAI）充当了LLM不透明推理与依靠其在高风险决策中产出的各种利益相关者之间的关键界面。本文对LLM的XAI进行了全面的反思和调查，围绕三个指导性问题提出：为什么解释性必不可少？它需要什么技术和道德方面？它如何履行其在现实部署中的作用？我们重点介绍了LLM中解 ...

0 0 0 2025/06/24 arXiv:2505.20305v1 oneyhu

Simulating Human Strategic Behavior: Comparing Single and Multi-agent LLMs

在为人们制定政策，计划或设计时，设计师预见人们可能推理和行为的所有方式，这是一项挑战。最近，大型语言模型（LLM）已被证明能够模拟人类的推理。我们通过测量LLM在Ultimatum Game中模拟战略推理的能力来扩展这项工作，这是一个经典的经济学谈判实验 ...

0 0 0 2025/06/24 arXiv:2402.08189v2 lurenv

Universality of Layer-Level Entropy-Weighted Quantization Beyond Model Architecture and Size

我们提出了一种新型的方法，用于选择性模型量化，该方法超越了使用熵加权量化（EWQ）的大语言模型（LLM）（EWQ）的大型语言模型（LLMS）的体系结构的局限性。通过分析跨 Transformer 块的熵分布，EWQ确定可以安全量化哪些块而不会导致显着的性能降解，而与模型架构或大小无关。我们的方法的表现优于统一的量化方法，维持0范围内的大量多任务语言理解（MMLU）精度得分 ...

0 0 0 2025/06/24 arXiv:2503.04704v2 Copper_Shen

MoQAE: Mixed-Precision Quantization for Long-Context LLM Inference via Mixture of Quantization-Aware Experts

优化大型语言模型（LLMS）的长篇小说推理的主要挑战之一在于键值（KV）缓存的高内存消耗。现有的方法（例如量化）已经证明了减少记忆使用情况的有希望的结果。但是，当前的量化方法不能同时考虑有效性和效率 ...

0 0 0 2025/06/24 arXiv:2506.07533v1 jingxi

Skywork R1V: Pioneering Multimodal Reasoning with Chain-of-Thought

我们介绍了Skywork R1V，这是一种多模式推理模型，通过有效的多模式传输方法将R1系列大型语言模型（LLM）扩展到视觉方式。 Skywork R1V利用轻巧的视觉投影仪，促进了无缝的多模式适应，而无需重新训练基础语言模型或视觉编码器。为了加强视觉文本对齐，我们提出了一种混合优化策略，将迭代监督的微调（SFT）与小组相对策略优化（GRPO）相结合，从而显着提高了交叉模式的整合效率 ...

0 0 0 2025/06/24 arXiv:2504.05599v2 baibaili

AgentSafe: Safeguarding Large Language Model-based Multi-agent Systems via Hierarchical Data Management

基于大型语言模型的多代理系统正在彻底改变自主沟通和协作，但它们仍然容易受到安全威胁，例如未经授权的访问和数据泄露。为了解决这个问题，我们介绍了Admentafe，这是一个新颖的框架，可通过层次信息管理和内存保护来增强MAS安全性。 AgesentsAfe按安全级别对信息进行了分类，从而限制了对授权代理的敏感数据访问 ...

0 0 0 2025/06/24 arXiv:2503.04392v1 lurenv

G-Safeguard: A Topology-Guided Security Lens and Treatment on LLM-based Multi-agent Systems

大型语言模型（LLM）的多代理系统（MAS）在各种复杂的任务中表现出了非凡的功能，从协作解决问题到自动决策。但是，随着这些系统越来越多地整合到关键应用中，它们对对抗性攻击，错误信息传播和意外行为的脆弱性引发了重大关注。为了应对这一挑战，我们介绍了G-Safeguard，这是一种拓扑指导的安全镜头和强大的LLM-MAS的处理，该镜头可利用图形神经网络来检测多代理性话语图形的异常情况，并采用拓扑干预进 ...

0 0 0 2025/06/24 arXiv:2502.11127v1 lurenv

Many Heads Are Better Than One: Improved Scientific Idea Generation by A LLM-Based Multi-Agent System

科学进步的快速发展需要能够加速发现的创新工具。虽然最近的人工智能方法，特别是大型语言模型（LLM），在假设生成和实验设计等任务中显示出了希望，但它们在复制现实世界科学实践的协作性质方面存在不足，在现实世界科学实践中，不同的专家团队共同努力解决问题复杂的问题。为了解决这个限制，我们提出了一个基于LLM的多代理系统，即 ...

0 0 0 2025/06/24 arXiv:2410.09403v4 lurenv

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）