强化学习在探索高维空间中的最优控制时通常需要处理状态和动作的指数增长(通常称为维数灾难)。在这项工作中,我们通过学习类似 MDP 的内在结构来解决这个问题,以适当平衡性能下降与样本/计算复杂性。特别是,我们根据转移分布和奖励函数的相似性将动作空间划分为多个组,并构建线性分解模型来捕获组内转移核和组内奖励之间的差异 ...
0 0 0 2025/01/22 arXiv:2306.12981v1 liukai
大型离散动作空间(LDAS)仍然是强化学习的核心挑战。现有的解决方案可以处理多达数百万个操作的非结构化 LDAS。然而,物流、生产和运输系统中的许多实际应用都具有组合动作空间,其规模远远超出数百万个动作,即使在小实例中也是如此 ...
0 0 0 2025/01/22 arXiv:2305.19891v4 liukai
我们从第一原理出发,提出了 $(2+1)$ 维中纯杨-米尔斯理论的真空波函数和弦张力的分析连续统计算,扩展了我们之前使用规范不变矩阵变量的分析。真空波函数与高动量和低动量状态下的预期一致。弦张力的值与最近的格子蒙特卡罗评估非常一致 ...
0 0 0 2025/01/22 arXiv:hep-th/9804132v2 kahsisjdhdkd
由于其多方面的性质,评估文本风格迁移 (TST) 是一项复杂的任务。生成文本的质量是根据具有挑战性的因素来衡量的,例如风格转换准确性、内容保留和整体流畅性。虽然人工评估被认为是 TST 评估的黄金标准,但其成本高昂且通常难以重现 ...
0 0 0 2025/01/22 arXiv:2308.13577v2 louishsu
我们引入 $\mathcal{L}_1$-MBRL,一种基于模型的强化学习(MBRL)算法的控制理论增强方案。与无模型方法不同,MBRL 算法使用数据学习转换函数的模型,并用它来设计控制输入。我们的方法根据所提出的切换定律生成一系列学习到的转换函数的近似控制仿射模型 ...
0 0 0 2025/01/22 arXiv:2403.14860v1 liukai
基于模型的强化学习(MBRL)因其以样本有效的方式学习复杂行为的能力而受到广泛关注:通过生成具有预测奖励的想象轨迹来规划行动。尽管取得了成功,但令人惊讶的是,我们发现奖励预测往往是 MBRL 的瓶颈,特别是对于难以预测(甚至模糊)的稀疏奖励。出于人类可以从粗略的奖励估计中学习的直觉,我们提出了一种简单而有效的奖励平滑方法 DreamSmooth,它学习预测时间平滑的奖励,而不是给定时间步长的确切奖 ...
0 0 0 2025/01/22 arXiv:2311.01450v2 liukai
3D 对象重建方面的最新进展非常显着,但当前大多数 3D 模型严重依赖现有 3D 数据集。多样化 3D 数据集的稀缺导致 3D 重建模型的泛化能力有限。在本文中,我们提出了一种新颖的框架,通过生成伪 GT 数据来促进多视图细化 (MVBoost) 的 3D 重建 ...
0 0 0 2025/01/22 arXiv:2411.17772v2 markdown
预训练语言模型 (PLM) 在解决各种通用自然语言处理 (NLP) 任务方面表现出了出色的能力。研究人员观察到这些模型的性能与其规模之间存在直接相关性。因此,近年来这些模型的规模显着扩大,促使研究人员采用大型语言模型 (LLM) 一词来描述较大规模的 PLM ...
0 0 0 2025/01/22 arXiv:2404.06001v2 xyz_syx

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)