为了减少深度 Transformer 网络中可训练参数的数量,我们采用强化学习在训练期间动态选择层并将它们连接在一起。每隔几次迭代,RL 代理就会被询问是否独立训练每一层 $i$,还是复制前一层 $j<i$ 的权重。这有利于权重共享,减少可训练参数的数量,并且还可以作为一种有效的正则化技术 ...
0 0 0 2025/01/22 arXiv:2401.12819v1 liukai
交互式环境中动力学的准确建模对于成功的远程预测至关重要。这种能力可以推进强化学习(RL)和规划算法,但实现它具有挑战性。模型估计的不准确性可能会加剧,导致长期误差增加 ...
0 0 0 2025/01/22 arXiv:2306.11941v4 liukai
最近,神经网络已被广泛用于求解物理系统建模中的偏微分方程(PDE)。虽然主要研究集中在预定义静态网格离散化上的学习系统演化,但由于这些系统的动态性质,一些方法利用强化学习或监督学习技术来创建自适应和动态网格。然而,这些方法面临两个主要挑战:(1)需要昂贵的最优网格数据,(2)网格细化过程中解空间自由度和拓扑的变化 ...
0 0 0 2025/01/22 arXiv:2312.05583v2 liukai
Dyna 风格的基于模型的强化学习包含两个阶段:模型推出以生成用于策略学习的样本,以及使用当前策略进行动态模型学习的真实环境探索。然而,由于复杂的现实环境,不可避免地要学习具有模型预测误差的不完美动力学模型,这可能会进一步误导策略学习并导致次优解决方案。在本文中,我们提出了 $\texttt{COPlanner}$,这是一种基于模型的方法的规划驱动框架,用于通过保守的模型推出和乐观的环境探索来解决 ...
0 0 0 2025/01/22 arXiv:2310.07220v2 liukai
我们提出并从理论上分析了一种在强化学习中使用近似模型进行规划的方法,该方法可以减少模型错误的不利影响。如果模型足够准确,它也会加速收敛到真值函数。其关键组件之一是 MaxEnt 模型校正 (MoCo) 过程,该过程基于最大熵密度估计公式来校正模型的下一状态分布 ...
0 0 0 2025/01/22 arXiv:2311.17855v1 liukai
强化学习(RL)提供了一个有前途的框架,可以通过环境交互来学习策略,但通常需要不可行的交互数据量来从稀疏的奖励中解决复杂的任务。一个方向包括用离线数据增强强化学习来演示所需的任务,但过去的工作通常需要大量难以获得的高质量演示数据,特别是对于机器人等领域。我们的方法包括逆向课程和正向课程 ...
0 0 0 2025/01/22 arXiv:2405.03379v1 liukai
早期发现皮肤异常在皮肤癌的诊断和治疗中起着至关重要的作用。使用人工智能设备对受影响的皮肤区域进行分割相对常见,并且支持诊断过程。然而,由于需要高分辨率图像并且单个病变的边界通常不清晰,实现高性能仍然是一个重大挑战 ...
0 0 0 2025/01/22 arXiv:2412.01405v1 hqz
可塑性是神经网络随新数据进化的能力,对于高性能和样本高效的视觉强化学习 (VRL) 至关重要。尽管重置和正则化等方法可以潜在地减轻可塑性损失,但 VRL 框架内的各种组件对智能体可塑性的影响仍然知之甚少。在这项工作中,我们针对三个主要的未充分探索的方面进行了系统的实证探索,并得出以下富有洞察力的结论:(1)数据增强对于保持可塑性至关重要; (2)批评者的可塑性损失是阻碍有效训练的主要瓶颈; (3) ...
0 0 0 2025/01/22 arXiv:2310.07418v3 liukai

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)