我们介绍了DreamControl,这是一种学习自动全身类人体技能的新方法。 DreamControl利用扩散模型和增强学习的优势(RL):我们的核心创新是使用先前对人类运动数据进行的扩散的使用,后来,该数据随后指导了模拟的RL政策以完成感兴趣的特定任务(例如, ...
0 0 0 2025/09/22 arXiv:2509.14353v1 yukun
人类到人类的模仿学习旨在从人体运动中学习人形全身控制器。运动重新定位是使机器人在探索运动技能时获取参考轨迹的关键步骤。但是,当前的方法集中在运动重新定位框架上,这缺乏可扩展性 ...
0 0 0 2025/09/22 arXiv:2509.15443v1 yukun
强化学习在人形运动方面取得了显着的进步,但是对现实世界部署的根本困境仍然存在:政策必须在反应性本体感受控制的鲁棒性或复杂,脆弱感知驱动的系统的积极性的鲁棒性之间进行选择。本文通过引入一个范式来解决这一难题,该范式将纯粹的本体感受政策与积极的能力融为一体,从而在没有其部署时间成本的情况下实现了感知的远见。我们的核心贡献是一个对比的学习框架,该框架迫使演员的潜在状态从模拟中编码特权环境信息 ...
0 0 0 2025/09/22 arXiv:2509.12858v1 yukun
如今,深度神经网络被普遍存在,从图像分类和机器翻译到面对识别和自动驾驶汽车的各种任务。在许多应用中,单个模型错误可能导致毁灭性的财务,声誉甚至威胁生命的后果。因此,在出现时快速纠正模型错误至关重要 ...
0 0 0 2025/09/22 arXiv:2004.00345v2 wangteqi
本文研究了(检索型)大语言模型(LLMS)在产生多样化和全面的响应中的局限性,并基于两个相系统的设计介绍了计划和refine(P&R)框架。在全球勘探阶段,P&R为给定输入生成了一套多种计划,每个计划都包含各种查询方面的列表,并具有相应的其他描述。此阶段之后是本地剥削阶段,该阶段为每个计划条件的输入查询生成了响应建议,并迭代地完善了提高提案质量的建议 ...
0 0 0 2025/09/22 arXiv:2504.07794v1 Abidalswark
我们介绍了使用基于低成本PCIE的固态驱动器(SSD)的新生命周期感知张量卸载框架的设计和实现。我们的框架Teraio是针对具有多个GPU和多个SSD的大型语言模型(LLM)培训明确开发的。它的设计是由我们观察到的,即主动张量仅占一小部分(1 ...
0 0 0 2025/09/22 arXiv:2506.06472v1 akey
计算系统已经经历了多个体流点 - 而摩尔的法律指导半导体行业将越来越多的晶体管和逻辑塞入相同的体积中,指导级并行性的极限(ILP),而丹纳德的终结将行业的缩放驱动到了多核芯片。现在,我们进入了针对AI和ML等新工作负载的特定领域架构时代。可以说,这些趋势与其他局限性,以及更严格的整合,极端形态和多样化的工作负载所面临的挑战,从能效的角度来看,系统更加复杂 ...
0 0 0 2025/09/22 arXiv:2007.09976v3 YONG
最近的DeepSeek-R1通过加强学习(RL)和基于规则的奖励展示了LLMS推理能力的出现。在这个想法的基础上,我们是第一个探索基于规则的RL如何增强图形用户界面(GUI)操作预测任务的多模式大语言模型(MLLM)的推理功能。为此,我们策划了136个具有挑战性的任务的小型但高质量的数据集,其中包括移动设备上的五种常见动作类型 ...
0 0 0 2025/09/22 arXiv:2503.21620v5 saliner

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)