一译 —— 文档和论文翻译、对照阅读、讨论和社区

Universality of Layer-Level Entropy-Weighted Quantization Beyond Model Architecture and Size

我们提出了一种新型的方法，用于选择性模型量化，该方法超越了使用熵加权量化（EWQ）的大语言模型（LLM）（EWQ）的大型语言模型（LLMS）的体系结构的局限性。通过分析跨 Transformer 块的熵分布，EWQ确定可以安全量化哪些块而不会导致显着的性能降解，而与模型架构或大小无关。我们的方法的表现优于统一的量化方法，维持0范围内的大量多任务语言理解（MMLU）精度得分 ...

0 0 0 2025/06/24 arXiv:2503.04704v2 Copper_Shen

MoQAE: Mixed-Precision Quantization for Long-Context LLM Inference via Mixture of Quantization-Aware Experts

优化大型语言模型（LLMS）的长篇小说推理的主要挑战之一在于键值（KV）缓存的高内存消耗。现有的方法（例如量化）已经证明了减少记忆使用情况的有希望的结果。但是，当前的量化方法不能同时考虑有效性和效率 ...

0 0 0 2025/06/24 arXiv:2506.07533v1 jingxi

Skywork R1V: Pioneering Multimodal Reasoning with Chain-of-Thought

我们介绍了Skywork R1V，这是一种多模式推理模型，通过有效的多模式传输方法将R1系列大型语言模型（LLM）扩展到视觉方式。 Skywork R1V利用轻巧的视觉投影仪，促进了无缝的多模式适应，而无需重新训练基础语言模型或视觉编码器。为了加强视觉文本对齐，我们提出了一种混合优化策略，将迭代监督的微调（SFT）与小组相对策略优化（GRPO）相结合，从而显着提高了交叉模式的整合效率 ...

0 0 0 2025/06/24 arXiv:2504.05599v2 baibaili

AgentSafe: Safeguarding Large Language Model-based Multi-agent Systems via Hierarchical Data Management

基于大型语言模型的多代理系统正在彻底改变自主沟通和协作，但它们仍然容易受到安全威胁，例如未经授权的访问和数据泄露。为了解决这个问题，我们介绍了Admentafe，这是一个新颖的框架，可通过层次信息管理和内存保护来增强MAS安全性。 AgesentsAfe按安全级别对信息进行了分类，从而限制了对授权代理的敏感数据访问 ...

0 0 0 2025/06/24 arXiv:2503.04392v1 lurenv

G-Safeguard: A Topology-Guided Security Lens and Treatment on LLM-based Multi-agent Systems

大型语言模型（LLM）的多代理系统（MAS）在各种复杂的任务中表现出了非凡的功能，从协作解决问题到自动决策。但是，随着这些系统越来越多地整合到关键应用中，它们对对抗性攻击，错误信息传播和意外行为的脆弱性引发了重大关注。为了应对这一挑战，我们介绍了G-Safeguard，这是一种拓扑指导的安全镜头和强大的LLM-MAS的处理，该镜头可利用图形神经网络来检测多代理性话语图形的异常情况，并采用拓扑干预进 ...

0 0 0 2025/06/24 arXiv:2502.11127v1 lurenv

Many Heads Are Better Than One: Improved Scientific Idea Generation by A LLM-Based Multi-Agent System

科学进步的快速发展需要能够加速发现的创新工具。虽然最近的人工智能方法，特别是大型语言模型（LLM），在假设生成和实验设计等任务中显示出了希望，但它们在复制现实世界科学实践的协作性质方面存在不足，在现实世界科学实践中，不同的专家团队共同努力解决问题复杂的问题。为了解决这个限制，我们提出了一个基于LLM的多代理系统，即 ...

0 0 0 2025/06/24 arXiv:2410.09403v4 lurenv

STORM: Efficient Stochastic Transformer based World Models for Reinforcement Learning

最近，基于模型的增强学习算法在视觉输入环境中表现出了显着的功效。这些方法首先通过自我监督的学习来构建真实环境的参数化模拟世界模型。通过利用世界模型的想象力，代理商的政策将得到增强，而无需从真实环境中取样的限制 ...

0 0 0 2025/06/24 arXiv:2310.09615v1 orangelcx

MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering

我们介绍了MLE基础，这是一种测量AI代理在机器学习工程中的表现的基准。为此，我们策划了来自Kaggle的75毫升工程相关的比赛，创建了一套具有挑战性的任务，以测试现实世界中的ML工程技能，例如培训模型，准备数据集和运行实验。我们使用Kaggle的公开排行榜为每场比赛建立人类基线 ...

0 0 0 2025/06/24 arXiv:2410.07095v6 yj97419

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）