当前基于模型的强化学习(MBRL)代理正在努力应对长期依赖性。这限制了他们有效解决涉及行动和结果之间较长时间间隔的任务的能力,或者需要回忆遥远的观察结果以告知当前行动的任务。为了提高时间一致性,我们在 MBRL 智能体的世界模型中集成了一系列新的状态空间模型 (SSM),以提出一种新方法,Recall to Imagine (R2I) ...
0 0 0 2025/01/22 arXiv:2403.04253v1 liukai
我们在电路复杂性的背景下研究基于模型和无模型强化学习(RL)的表示复杂性。我们从理论上证明,存在一类广泛的 MDP,其底层转换和奖励函数可以用多项式大小的恒定深度电路来表示,而最优 $Q$ 函数在恒定深度电路中会遇到指数电路复杂性。通过关注近似误差并建立与复杂性理论的联系,我们的理论从新颖的表示复杂性角度提供了独特的见解,解释了为什么基于模型的算法通常比无模型算法具有更好的样本复杂性:在某些情况下 ...
0 0 0 2025/01/22 arXiv:2310.01706v2 liukai
发生在动态图(即事件流)上的兴奋点过程(即事件流) ...
0 0 0 2025/01/22 arXiv:2310.04159v2 liukai
为了减少深度 Transformer 网络中可训练参数的数量,我们采用强化学习在训练期间动态选择层并将它们连接在一起。每隔几次迭代,RL 代理就会被询问是否独立训练每一层 $i$,还是复制前一层 $j<i$ 的权重。这有利于权重共享,减少可训练参数的数量,并且还可以作为一种有效的正则化技术 ...
0 0 0 2025/01/22 arXiv:2401.12819v1 liukai
交互式环境中动力学的准确建模对于成功的远程预测至关重要。这种能力可以推进强化学习(RL)和规划算法,但实现它具有挑战性。模型估计的不准确性可能会加剧,导致长期误差增加 ...
0 0 0 2025/01/22 arXiv:2306.11941v4 liukai
最近,神经网络已被广泛用于求解物理系统建模中的偏微分方程(PDE)。虽然主要研究集中在预定义静态网格离散化上的学习系统演化,但由于这些系统的动态性质,一些方法利用强化学习或监督学习技术来创建自适应和动态网格。然而,这些方法面临两个主要挑战:(1)需要昂贵的最优网格数据,(2)网格细化过程中解空间自由度和拓扑的变化 ...
0 0 0 2025/01/22 arXiv:2312.05583v2 liukai
Dyna 风格的基于模型的强化学习包含两个阶段:模型推出以生成用于策略学习的样本,以及使用当前策略进行动态模型学习的真实环境探索。然而,由于复杂的现实环境,不可避免地要学习具有模型预测误差的不完美动力学模型,这可能会进一步误导策略学习并导致次优解决方案。在本文中,我们提出了 $\texttt{COPlanner}$,这是一种基于模型的方法的规划驱动框架,用于通过保守的模型推出和乐观的环境探索来解决 ...
0 0 0 2025/01/22 arXiv:2310.07220v2 liukai
我们提出并从理论上分析了一种在强化学习中使用近似模型进行规划的方法,该方法可以减少模型错误的不利影响。如果模型足够准确,它也会加速收敛到真值函数。其关键组件之一是 MaxEnt 模型校正 (MoCo) 过程,该过程基于最大熵密度估计公式来校正模型的下一状态分布 ...
0 0 0 2025/01/22 arXiv:2311.17855v1 liukai

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)