强化学习(RL)提供了一个有前途的框架,可以通过环境交互来学习策略,但通常需要不可行的交互数据量来从稀疏的奖励中解决复杂的任务。一个方向包括用离线数据增强强化学习来演示所需的任务,但过去的工作通常需要大量难以获得的高质量演示数据,特别是对于机器人等领域。我们的方法包括逆向课程和正向课程 ...
早期发现皮肤异常在皮肤癌的诊断和治疗中起着至关重要的作用。使用人工智能设备对受影响的皮肤区域进行分割相对常见,并且支持诊断过程。然而,由于需要高分辨率图像并且单个病变的边界通常不清晰,实现高性能仍然是一个重大挑战 ...
可塑性是神经网络随新数据进化的能力,对于高性能和样本高效的视觉强化学习 (VRL) 至关重要。尽管重置和正则化等方法可以潜在地减轻可塑性损失,但 VRL 框架内的各种组件对智能体可塑性的影响仍然知之甚少。在这项工作中,我们针对三个主要的未充分探索的方面进行了系统的实证探索,并得出以下富有洞察力的结论:(1)数据增强对于保持可塑性至关重要; (2)批评者的可塑性损失是阻碍有效训练的主要瓶颈; (3) ...
样本效率是深度强化学习中的一个关键问题。最近的算法,例如 REDQ 和 DroQ,找到了一种提高样本效率的方法,方法是将每个环境样本的批评者的更新数据 (UTD) 比率增加到 20 个梯度更新步骤。然而,这是以大大增加的计算成本为代价的 ...
大型语言模型 (LLM) 在为最终用户提供类人智能服务方面取得了显着的成功。然而, LLM 需要大量的计算资源,这使得部署它们来满足各种性能目标具有挑战性,例如满足靠近最终用户的边缘设备的资源限制或利用充足的资源实现高精度。在本文中,我们介绍了 CE-CoLLM,这是一种新颖的云边缘协作框架,它支持边缘终端用户的高效、自适应 LLM 推理,具有两种模式:(1) 低延迟边缘独立推理和 (2) 高精度 ...
一些强化学习 (RL) 算法可以拼接经验片段来解决训练期间从未见过的任务。这一备受追捧的特性是基于动态规划的强化学习方法与基于监督学习 (SL) 的强化学习方法的少数不同之处之一。然而,某些基于现成 SL 算法的 RL 方法在没有明确的拼接机制的情况下取得了优异的结果;目前尚不清楚这些方法是否放弃了这一重要的缝合特性 ...
最近,数据增强 (DA) 已成为一种利用领域知识在强化学习 (RL) 任务中以廉价方式生成附加数据的方法,通常会显着提高数据效率。虽然之前的工作已经证明了将增强数据直接合并到无模型强化学习更新中的实用性,但尚不清楚特定的 DA 策略何时会提高数据效率。在本文中,我们试图确定 DA 负责观察到的学习改进的一般方面 ...
生成分子设计已经从概念验证转向现实世界的适用性,最近报告实验验证的论文数量激增就表明了这一点。可解释性和样本效率方面的主要挑战为增强生成设计提供了机会,以直接优化昂贵的高保真预言并为领域专家提供可行的见解。在这里,我们提出 Beam Enumeration 从基于语言的分子生成模型中详尽地枚举最可能的子序列,并表明可以提取分子子结构 ...