一译 —— 文档和论文翻译、对照阅读、讨论和社区

Enhancing Multi-Agent Systems via Reinforcement Learning with LLM-based Planner and Graph-based Policy

多机构系统（MAS）在执行复杂的任务方面表现出巨大的潜力，但是协调和安全仍然是重大挑战。多机构增强学习（MARL）为代理协作提供了有希望的框架，但它在处理复杂任务和设计奖励功能方面面临困难。大型语言模型（LLM）的引入为MAS带来了更强的推理和认知能力，但是现有的基于LLM的系统努力在动态环境中迅速而准确地做出响应 ...

0 1 0 2025/07/02 arXiv:2503.10049v1 psyduck1

MARFT: Multi-Agent Reinforcement Fine-Tuning

基于LLM的多代理系统已经在解决复杂的，代理任务的能力方面具有出色的功能，从产生高质量的演示幻灯片到进行复杂的科学研究。同时，RL因其在增强剂智能方面的有效性而被广泛认可，但有限的研究研究了使用基础RL技术对喇嘛进行微调。此外，MARL方法在喇嘛上的直接应用引入了重大挑战，这是源于喇嘛固有的独特特征和机制 ...

0 0 0 2025/07/02 arXiv:2504.16129v3 psyduck1

MAPoRL: Multi-Agent Post-Co-Training for Collaborative Large Language Models with Reinforcement Learning

利用多种大型语言模型（LLM）来构建协作性多代理工作流，这表明了巨大的潜力。但是，大多数以前的研究都侧重于促使开箱即用的LLM，依靠其与生俱来的合作能力，这可能无法改善LLMS的性能，如最近所示。在本文中，我们介绍了一种新的训练后范式Maporl（用于加强学习的合作LLM的多代理后培训），以明确引起协作行为，并进一步释放多代理LLM LLM框架的力量 ...

0 0 0 2025/07/02 arXiv:2502.18439v1 psyduck1

Knowledge Editing through Chain-of-Thought

大型语言模型（LLMS）已在广泛的自然语言处理（NLP）任务中表现出非凡的功能。但是，由于频繁再培训的高成本，使这些模型与不断发展的世界知识保持最新状态仍然是一个重大挑战。为了应对这一挑战，知识编辑技术已经出现了，可以在不重新构建模型的情况下使用新信息更新LLM ...

0 0 0 2025/07/02 arXiv:2412.17727v1 kxdfn

Causal Inference with Large Language Model: A Survey

因果推论一直是医学和经济学等各个领域的关键挑战，要求将人类知识，数学推理和数据挖掘能力融为一体。自然语言处理（NLP）的最新进展，特别是随着大型语言模型的出现（LLM），为传统的因果推理任务引入了有希望的机会。本文回顾了将LLMS应用于因果推断的最新进展，包括各种因果关系层面的任务 ...

0 0 0 2025/07/02 arXiv:2409.09822v3 xuexizhanghao

GFlowGR: Fine-tuning Generative Recommendation Frameworks with Generative Flow Networks

生成建议（GR）通常包括项目引导者和生成大语言模型（LLMS），在各种场景中都取得了巨大的成功。现有的大多数研究工作主要集中于开发强大的物品引导者或推进LLM解码策略以达到卓越的性能。但是，GR框架中关键的微调步骤（对于适应LLMS推荐数据至关重要）仍然没有探索 ...

0 0 0 2025/07/01 arXiv:2506.16114v1 lilee

QuaLLM: An LLM-based Framework to Extract Quantitative Insights from Online Forums

在线讨论论坛提供了重要的数据，以了解广泛的现实社区的关注点。但是，用于分析这些数据的典型定性和定量方法（例如主题分析和主题建模）是不可行的，或者需要大量的人类努力将产出转化为人类可读形式。这项研究介绍了Quallm，这是一种基于LLM的新型框架，可从在线论坛上的文本数据中分析和提取定量见解 ...

0 0 0 2025/07/01 arXiv:2405.05345v2 xiaoshulin

High Epsilon Synthetic Data Vulnerabilities in MST and PrivBayes

合成数据生成（SDG）已越来越流行，作为一种增强隐私的技术。它旨在维持其基础培训数据的重要统计特性，同时排除任何个人身份信息。近年来，已经开发了许多可持续发展算法，以改善和平衡这两个目标 ...

0 0 0 2025/07/01 arXiv:2402.06699v1 hechenglo03

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）