一译 —— 文档和论文翻译、对照阅读、讨论和社区

Reverse Forward Curriculum Learning for Extreme Sample and Demonstration Efficiency in Reinforcement Learning

强化学习（RL）提供了一个有前途的框架，可以通过环境交互来学习策略，但通常需要不可行的交互数据量来从稀疏的奖励中解决复杂的任务。一个方向包括用离线数据增强强化学习来演示所需的任务，但过去的工作通常需要大量难以获得的高质量演示数据，特别是对于机器人等领域。我们的方法包括逆向课程和正向课程 ...

0 0 0 2025/01/22 arXiv:2405.03379v1 liukai

MambaU-Lite: A Lightweight Model based on Mamba and Integrated Channel-Spatial Attention for Skin Lesion Segmentation

早期发现皮肤异常在皮肤癌的诊断和治疗中起着至关重要的作用。使用人工智能设备对受影响的皮肤区域进行分割相对常见，并且支持诊断过程。然而，由于需要高分辨率图像并且单个病变的边界通常不清晰，实现高性能仍然是一个重大挑战 ...

0 0 0 2025/01/22 arXiv:2412.01405v1 hqz

Revisiting Plasticity in Visual Reinforcement Learning: Data, Modules and Training Stages

可塑性是神经网络随新数据进化的能力，对于高性能和样本高效的视觉强化学习 (VRL) 至关重要。尽管重置和正则化等方法可以潜在地减轻可塑性损失，但 VRL 框架内的各种组件对智能体可塑性的影响仍然知之甚少。在这项工作中，我们针对三个主要的未充分探索的方面进行了系统的实证探索，并得出以下富有洞察力的结论：（1）数据增强对于保持可塑性至关重要； （2）批评者的可塑性损失是阻碍有效训练的主要瓶颈； (3) ...

0 0 0 2025/01/22 arXiv:2310.07418v3 liukai

CrossQ: Batch Normalization in Deep Reinforcement Learning for Greater Sample Efficiency and Simplicity

样本效率是深度强化学习中的一个关键问题。最近的算法，例如 REDQ 和 DroQ，找到了一种提高样本效率的方法，方法是将每个环境样本的批评者的更新数据 (UTD) 比率增加到 20 个梯度更新步骤。然而，这是以大大增加的计算成本为代价的 ...

0 0 0 2025/01/22 arXiv:1902.05605v4 liukai

CE-CoLLM: Efficient and Adaptive Large Language Models Through Cloud-Edge Collaboration

大型语言模型 (LLM) 在为最终用户提供类人智能服务方面取得了显着的成功。然而， LLM 需要大量的计算资源，这使得部署它们来满足各种性能目标具有挑战性，例如满足靠近最终用户的边缘设备的资源限制或利用充足的资源实现高精度。在本文中，我们介绍了 CE-CoLLM，这是一种新颖的云边缘协作框架，它支持边缘终端用户的高效、自适应 LLM 推理，具有两种模式：(1) 低延迟边缘独立推理和 (2) 高精度 ...

0 0 0 2025/01/22 arXiv:2411.02829v1 starqi

Closing the Gap between TD Learning and Supervised Learning -- A Generalisation Point of View

一些强化学习 (RL) 算法可以拼接经验片段来解决训练期间从未见过的任务。这一备受追捧的特性是基于动态规划的强化学习方法与基于监督学习 (SL) 的强化学习方法的少数不同之处之一。然而，某些基于现成 SL 算法的 RL 方法在没有明确的拼接机制的情况下取得了优异的结果；目前尚不清楚这些方法是否放弃了这一重要的缝合特性 ...

0 0 0 2025/01/22 arXiv:2401.11237v2 liukai

Understanding when Dynamics-Invariant Data Augmentations Benefit Model-Free Reinforcement Learning Updates

最近，数据增强 (DA) 已成为一种利用领域知识在强化学习 (RL) 任务中以廉价方式生成附加数据的方法，通常会显着提高数据效率。虽然之前的工作已经证明了将增强数据直接合并到无模型强化学习更新中的实用性，但尚不清楚特定的 DA 策略何时会提高数据效率。在本文中，我们试图确定 DA 负责观察到的学习改进的一般方面 ...

0 0 0 2025/01/22 arXiv:2310.17786v2 liukai

Beam Enumeration: Probabilistic Explainability For Sample Efficient Self-conditioned Molecular Design

生成分子设计已经从概念验证转向现实世界的适用性，最近报告实验验证的论文数量激增就表明了这一点。可解释性和样本效率方面的主要挑战为增强生成设计提供了机会，以直接优化昂贵的高保真预言并为领域专家提供可行的见解。在这里，我们提出 Beam Enumeration 从基于语言的分子生成模型中详尽地枚举最可能的子序列，并表明可以提取分子子结构 ...

0 0 0 2025/01/22 arXiv:2309.13957v2 liukai

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）