我们介绍了梯子(通过自主难度驱动的示例递归学习),这是一个框架,使LLMS能够通过自我引导的学习自主提高其解决问题的能力。通过递归生成和解决复杂问题的更简单变体,梯子使模型能够通过强化学习如何解决更严重的问题来逐步学习。这种自我改进过程以可验证的奖励信号为指导,从而使模型可以评估其解决方案 ...
0 0 0 2025/05/24 arXiv:2503.00735v3 chrisxiong
我们提出了一种简单但有效的基于扩散的方法,用于对图像中光源进行细粒度的参数控制。现有的重新考虑方法要么依赖于多个输入视图来在推理时执行反相反渲染,要么无法对光更改提供明确的控制。我们的方法微调在一小部分真实的原始照片对上进行了扩散模型,并以合成的渲染图像进行了大规模补充,以引起其光真逼真的先验 ...
0 0 0 2025/05/24 arXiv:2505.09608v1 flynnamy
机车操作计划技能是扩大日常环境中机器人效用的关键。这些技能可以根据系统在解决不同任务时协调复杂的整体运动和多个接触互动的能力进行评估。但是,现有的方法仅能通过手工制作的状态机器,密集工程的奖励或预先录制的专家演示来塑造此类行为 ...
0 0 0 2025/05/24 arXiv:2308.09179v1 yydsdsyy
小病变在早期疾病诊断和严重感染的干预中起着至关重要的作用。流行的模型通常在细分小病变时面临挑战,因为它仅占据图像的一小部分,而下降\ _Sampling操作可能不可避免地会失去关注小病变的本地特征。要应对挑战,我们提出了一个{\ bf s}购物中心 -  {\ bf s} ize- {\ bf s} endistive {\ bf mamba}({\ bf s $^3 $ -mamba}),从而促 ...
0 0 0 2025/05/24 arXiv:2412.14546v1 澹台心木
我们提出了一个基于学习的系统,以使四足动物的机器人使用其整个身体来操纵大型重物。我们的系统基于一种层次控制策略,该策略使用了深层可变变量嵌入,该变量嵌入,该嵌入从相互作用,本体感受和动作历史记录中捕获与操纵相关的信息,从而使机器人可以隐式地理解对象属性。我们在模拟和现实世界中都评估了我们的框架 ...
0 0 0 2025/05/24 arXiv:2308.16820v2 yydsdsyy
尽管对话生成的AI在增强农业专业人员的决策方面表现出了巨大的潜力,但其探索主要基于基于文本的互动。多模式对话AI的演变利用了来自不同来源的大量图像文本数据,这标志着前进的显着大步。但是,这种先进的视力模型在农业领域的应用,尤其是在农作物疾病诊断中,仍然没有被逐渐解散 ...
0 0 0 2025/05/24 arXiv:2503.06973v1 SourceRoc
机器人增强学习(RL)通常依靠精心设计的辅助奖励来补充稀疏的初级学习目标,以弥补缺乏大规模的,真实世界,反复试验的数据。尽管这些辅助奖励加速学习,但它们需要大量的工程工作,可能会引入人类的偏见,并且不能在培训期间适应机器人的发展能力。在本文中,我们引入了奖励培训轮(RTW),这是一个自动化机器人RL辅助奖励适应的教师框架 ...
1 0 0 2025/05/24 arXiv:2503.15724v1 lrk
CDR(CDR)研究的主要目标之一... ...
0 0 0 2025/05/24 arXiv:2402.02182v1 fc

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)