一译 —— 文档和论文翻译、对照阅读、讨论和社区

Minimum degree in simplicial complexes

给定的$ d \在\ mathbb {n} $中，令$ \ alpha（d）$为最大的实际数字，使每个抽象的简单复杂$ \ nathcal {s} $，带有$ 0 <\ vert \ vert \ vert \ nathcal {s} \ vert {s} \ vert \ vert \ leq \ leq \ alpha（d）最多$ d $。我们通过证明所有整数$ d $ and $ m $的弗 ...

0 0 0 2025/07/02 arXiv:2501.01294v1 kxdfn

YOLO-MARL: You Only LLM Once for Multi-Agent Reinforcement Learning

深度多智能体强化学习（MARL）的进步使其成为合作游戏决策的一种有前途的方法。然而，对于 MARL 智能体来说，学习某些游戏环境的合作策略仍然具有挑战性。最近，大型语言模型（LLM）已经表现出新兴的推理能力，使它们成为增强智能体之间协调的有希望的候选者 ...

0 0 0 2025/07/02 arXiv:2410.03997v2 psyduck1

Enhancing Multi-Agent Systems via Reinforcement Learning with LLM-based Planner and Graph-based Policy

多机构系统（MAS）在执行复杂的任务方面表现出巨大的潜力，但是协调和安全仍然是重大挑战。多机构增强学习（MARL）为代理协作提供了有希望的框架，但它在处理复杂任务和设计奖励功能方面面临困难。大型语言模型（LLM）的引入为MAS带来了更强的推理和认知能力，但是现有的基于LLM的系统努力在动态环境中迅速而准确地做出响应 ...

0 0 0 2025/07/02 arXiv:2503.10049v1 psyduck1

MARFT: Multi-Agent Reinforcement Fine-Tuning

基于LLM的多代理系统已经在解决复杂的，代理任务的能力方面具有出色的功能，从产生高质量的演示幻灯片到进行复杂的科学研究。同时，RL因其在增强剂智能方面的有效性而被广泛认可，但有限的研究研究了使用基础RL技术对喇嘛进行微调。此外，MARL方法在喇嘛上的直接应用引入了重大挑战，这是源于喇嘛固有的独特特征和机制 ...

0 0 0 2025/07/02 arXiv:2504.16129v3 psyduck1

MAPoRL: Multi-Agent Post-Co-Training for Collaborative Large Language Models with Reinforcement Learning

利用多种大型语言模型（LLM）来构建协作性多代理工作流，这表明了巨大的潜力。但是，大多数以前的研究都侧重于促使开箱即用的LLM，依靠其与生俱来的合作能力，这可能无法改善LLMS的性能，如最近所示。在本文中，我们介绍了一种新的训练后范式Maporl（用于加强学习的合作LLM的多代理后培训），以明确引起协作行为，并进一步释放多代理LLM LLM框架的力量 ...

0 0 0 2025/07/02 arXiv:2502.18439v1 psyduck1

Knowledge Editing through Chain-of-Thought

大型语言模型（LLMS）已在广泛的自然语言处理（NLP）任务中表现出非凡的功能。但是，由于频繁再培训的高成本，使这些模型与不断发展的世界知识保持最新状态仍然是一个重大挑战。为了应对这一挑战，知识编辑技术已经出现了，可以在不重新构建模型的情况下使用新信息更新LLM ...

0 0 0 2025/07/02 arXiv:2412.17727v1 kxdfn

Causal Inference with Large Language Model: A Survey

因果推论一直是医学和经济学等各个领域的关键挑战，要求将人类知识，数学推理和数据挖掘能力融为一体。自然语言处理（NLP）的最新进展，特别是随着大型语言模型的出现（LLM），为传统的因果推理任务引入了有希望的机会。本文回顾了将LLMS应用于因果推断的最新进展，包括各种因果关系层面的任务 ...

0 0 0 2025/07/02 arXiv:2409.09822v3 xuexizhanghao

GFlowGR: Fine-tuning Generative Recommendation Frameworks with Generative Flow Networks

生成建议（GR）通常包括项目引导者和生成大语言模型（LLMS），在各种场景中都取得了巨大的成功。现有的大多数研究工作主要集中于开发强大的物品引导者或推进LLM解码策略以达到卓越的性能。但是，GR框架中关键的微调步骤（对于适应LLMS推荐数据至关重要）仍然没有探索 ...

0 0 0 2025/07/01 arXiv:2506.16114v1 lilee

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）