一译 —— 文档和论文翻译、对照阅读、讨论和社区

MedRAG: Enhancing Retrieval-augmented Generation with Knowledge Graph-Elicited Reasoning for Healthcare Copilot

检索增强的一代（RAG）是一种适合检索隐私敏感电子健康记录（EHR）的技术。它可以作为医疗保健副驾驶的关键模块，有助于减少医疗保健从业者和患者的误诊。但是，医学领域中使用的基于启发式的抹布模型的诊断准确性和特异性不足，特别是对于具有相似表现的疾病 ...

0 0 0 2025/09/04 arXiv:2502.04413v2 lin3

Language-Conditioned Offline RL for Multi-Robot Navigation

我们提出了一种为多机器人团队制定导航政策的方法，这些团队解释和遵循自然语言指示。我们将这些策略的条件调节于验证的大语言模型（LLMS）的嵌入方式，并通过离线加强学习训练它们，并使用20分钟的随机收集数据进行训练。一个由五个真正的机器人组成的实验表明，这些政策很好地推广到看不见的命令，表明对LLM潜在空间有所了解 ...

0 0 0 2025/09/04 arXiv:2407.20164v1 xsxsxsxsxs

HG-DAgger: Interactive Imitation Learning with Human Experts

编辑限制已被证明对许多现实世界的问题有用，dagger算法，该算法使用新手诱导的状态分布来对专家的然而，这种采样方案要求专家在不完全控制系统的情况下提供操作标签... ... ... ...

0 0 0 2025/09/04 arXiv:1810.02890v2 晚餐杀手

ELASTIC: Efficient Linear Attention for Sequential Interest Compression

最新的顺序推荐模型在很大程度上依赖 Transformer 的注意机制。但是，自我注意力的二次计算和记忆复杂性限制了其对用户远程行为序列进行建模的可扩展性。为了解决这个问题，我们提出了弹性，这是对顺序兴趣压缩的有效线性关注，仅需要线性时间复杂性和与计算成本的解耦能力 ...

0 0 0 2025/09/04 arXiv:2408.09380v4 caowenli

The Landscape of Agentic Reinforcement Learning for LLMs: A Survey

代理增强学习的出现（代理RL）标志着从应用于大型语言模型（LLM RL）的常规强化学习的范式转变，将LLM从被动序列发生器转化为嵌入在复杂，动态世界中的自主决策的机构。这项调查通过将LLM-RL的退化单步马尔可夫决策过程（MDP）与定义代理RL的时间扩展的，部分可观察到的马尔可夫决策过程（POMDP）形式化了这一概念转移。在这个基础的基础上，我们提出了一个全面的双重分类法：一个围绕核心代理能力组织 ...

0 0 6 2025/09/04 arXiv:2509.02547v1 zhangzhe

Two-Stage Regularization-Based Structured Pruning for LLMs

大型语言模型（LLMS）的部署在很大程度上受其大量参数的阻碍。结构修剪已成为一种有前途的解决方案。先前的结构化修剪方法直接基于某些指标去除不重要的参数，这通常会导致知识丧失并需要广泛的重新训练 ...

0 0 0 2025/09/04 arXiv:2505.18232v2 Cantaloupe

Towards Non-Robocentric Dynamic Landing of Quadrotor UAVs

在这项工作中，我们提出了一个动态着陆解决方案，而无需在机载外部感受性传感器和昂贵的计算单元，在该计算单元中，所有定位和控制模块均在非惯性框架中进行地面进行。我们的系统从着陆平台的角度开始是空中机器人的相对状态估计器，在该平台的角度，无人机的状态跟踪是通过一套板载LED标记和一个地面摄像头完成的；该状态在歧管上几何表示，并通过迭代的扩展Kalman滤波器（IEKF）算法返回。随后，开发了一个运动计划 ...

0 0 0 2025/09/04 arXiv:2401.11445v1 harry12138

Emerging Properties in Unified Multimodal Pretraining

统一多模式的理解和产生在尖端专有系统中表现出了令人印象深刻的能力。在这项工作中，我们介绍了Bagel，这是一种开源的基础模型，该模型本地支持多模式的理解和产生。 Bagel是一种统一的，仅在大规模交织文本，图像，视频和Web数据中策划的数万亿个 Token 的统一模型 ...

0 0 0 2025/09/04 arXiv:2505.14683v3 zzr123456

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）