本手稿对(深度)强化学习和顺序决策领域进行了全面、最新的概述,涵盖基于价值的强化学习、策略梯度方法、基于模型的方法和各种其他主题(包括对 RL+LLM 的非常简短的讨论).. ...
访问外部知识对于许多自然语言处理任务,例如问答和对话至关重要。现有方法通常依赖于将知识存储在其参数中的参数模型,或使用具有外部知识源的检索型模型。参数和检索的模型在计算效率和预测准确性方面具有互补的优势 ...
对GUI代理的培训有效的视觉语言模型(VLM)通常依赖于大规模注释的数据集的监督微调(SFT),在该数据集中收集过程易于劳动且容易出错。在这项工作中,我们提出了一项自制的反动力学任务,以使VLM通过推断引起过渡的动作来从GUI过渡对学习。这项培训任务提供了两个优点:(1)它使VLM可以忽略与用户操作无关的变化(e ...
使用RLHF的LLM培训以及随后的偏好优化算法,例如DPO,IPO等,在改善人类对齐方面具有很大的不同。但是,所有这些技术只能与一个(人类)目标一起使用 ...
我们介绍了多源3D(MS3D),这是一种在3D对象检测中针对无监督域适应的新自我训练管道。尽管3D探测器的精度显着,但它们通常过于特定领域的偏见,从而导致各种传感器设置和环境中的次优性能。现有方法通常着重于将单个检测器调整为目标域,从而忽视了不同检测器在不同看不见的域具有独特的专业知识的事实 ...
交互式3D模拟对象对于AR/VR,动画和机器人技术至关重要,可以推动沉浸式体验和高级自动化。但是,创建这些铰接的物体需要广泛的人类努力和专业知识,从而限制了其更广泛的应用。为了克服这一挑战,我们提出了清晰的所有内容,该系统可以自动化许多输入方式(包括文本,图像和视频)的各种复杂物体的表达 ...
本文介绍了Jaeger,这是一种针对人形机器人的双层全身控制器,可以解决训练更强大和多功能政策的挑战。与传统的单个控制器方法不同,Jaeger将上部和下身体的控制分为两个独立的控制器,以便他们可以更好地专注于不同的任务。这种分离减轻了维度的诅咒,并提高了容错 ...
由于服装的可变形性,为机器人服装操纵任务生成大量的高质量数据是高度挑战性的。在本文中,我们提供了一个合成服装数据集,可用于机器人服装折叠。我们首先基于关键点构建几何服装模板,并应用生成模型来生成逼真的纹理模式 ...