我们考虑在具有连续行动空间的环境中对强化学习(RL)的确定性目标策略进行离策略评估(OPE)。虽然对 OPE 使用重要性采样很常见,但当行为策略显着偏离目标策略时,它会遭受高方差。为了解决这个问题,OPE 的一些最新研究提出了具有重要性重采样的样本内学习 ...
0 0 0 2025/01/22 arXiv:2405.18792v1 liukai
受量子计算发展的启发,构建特定领域的经典硬件来解决计算难题已受到越来越多的关注。在这里,通过引入系统稀疏化技术,我们演示了一种大规模并行架构:稀疏伊辛机(sIM)。利用稀疏性,sIM 实现了理想的并行性:其关键品质因数 - 每秒翻转次数 - 与系统中概率位 (p 位) 的数量线性缩放 ...
0 0 0 2025/01/22 arXiv:2110.02481v2 odenkkk
分布式深度强化学习(DRL)旨在利用更多的计算资源以更少的训练时间来训练自主代理。尽管该领域最近取得了进展,但再现性问题尚未得到充分探讨。本文首先表明,即使控制超参数,典型的参与者-学习器框架也可能存在重现性问题 ...
0 0 0 2025/01/22 arXiv:2310.00036v1 liukai
与经典强化学习相反,分布式强化学习算法旨在学习回报的分布而不是其期望值。由于回报分布的性质通常是先验未知的或任意复杂的,因此常见的方法是在一组可表示的参数分布中找到近似值。通常,这涉及将无约束分布投影到简化分布集上 ...
0 0 0 2025/01/22 arXiv:2306.07124v1 liukai
强化学习(RL)任务日益复杂,需要分布式系统来高效生成和处理大量数据。然而,现有的开源库存在各种限制,这阻碍了它们在需要大规模训练的挑战性场景中的实际使用。在本文中,我们提出了一种关于 RL 训练数据流的新颖抽象,它将不同的 RL 训练应用程序统一到一个通用框架中 ...
0 0 0 2025/01/22 arXiv:2306.16688v3 liukai
学生建模是通过学生与课程作业的交互来推断学生的学习特征的任务,是智能教育的一个基本问题。尽管最近知识追踪和认知诊断的尝试提出了几个有希望的方向来提高当前模型的可用性和有效性,但现有的公共数据集仍然不足以满足这些潜在解决方案的需求,因为它们不了解完整的运动环境,精细的数据集。粒度概念和认知标签。在本文中,我们提出了 MoocRadar,这是一个细粒度、多方面的知识库,由 2,513 个练习题、5,6 ...
0 0 0 2025/01/22 arXiv:2304.02205v1 xuanyue.zhong
问答系统最近的成功极大地完成了预先的语言模型。然而,由于语言模型主要是在维基百科等通用领域语言料库上进行预训练的,因此通常难以理解的生物医学问题。在论文中,我们研究了 BioBERT(一种预训练的生物医学语言模型)在回答生物医学问题(包括事实陈述、列表和是/否类型问题)方面的性能... ...
0 0 0 2025/01/22 arXiv:1909.08229v1 zkq
时间序列是用于记录动态系统测量的主要数据类型,由物理传感器和在线过程(虚拟传感器)大量生成。因此,时间序列分析对于释放可用数据中隐含的大量信息至关重要。随着图神经网络 (GNN) 的最新进展,基于 GNN 的时间序列分析方法激增 ...
0 0 0 2025/01/22 arXiv:2307.03759v3 nnstake

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)