最近,视觉语言动作模型(VLA)具有先进的机器人模仿学习,但是高数据收集成本和有限的演示限制了概括和当前的模仿学习方法在分布外的场景中挣扎,尤其是对于长途任务。一个关键的挑战是如何减轻模仿学习中的复杂错误,从而导致对扩展轨迹的失败。为了应对这些挑战,我们提出了扩散轨迹引导的策略(DTP)框架,该框架通过扩散模型生成2D轨迹,以指导长途任务的策略学习 ...
许多单一目标回归问题需要估计不确定性以及点预测。概率回归算法非常适合这些任务。但是,当预测目标是多变量时,并且需要进行不确定性的联合度量时,这些选项将受到更大的限制 ...
近年来,端到端的语音识别已变得流行,因为它可以将声学,发音和语言模型整合到单个神经网络中。在端到端的方法中,基于注意力的方法已经出现了。例如,Transformer,它采用编码器架构 ...
多模式大型语言模型(MLLM)在各个数据集的视觉上下文中显示出有希望的数学推理能力。但是,大多数现有的多模式数学基准限于单视性上下文,这些上下文与现实世界中数学应用程序中常见的多视觉场景有所不同。为了解决这一差距,我们介绍了MV-MATH:一个精心策划的数据集的2,009个高质量数学问题 ...
我们提出了tinyllava框架,它为设计和分析小规模大型多模态模型(lmm)提供了统一的视角。我们实证研究了不同视觉编码器、连接模块、语言模型、训练数据和训练配方的效果。我们广泛的实验表明,与较大的lmm相比,更好的数据质量与更好的训练方案相结合,较小的lmm可以始终达到同等的性能... ...
基于扩散的生成模型已彻底改变了面向对象的图像编辑,但是它们在逼真的对象去除和插入中的部署仍然受到诸如物理效果的复杂相互作用和配对训练数据不足的挑战的阻碍。在这项工作中,我们介绍了Omnipaint,这是一个统一的框架,将对象的去除和插入重新概念化为相互依存的过程,而不是孤立的任务。通过循环流程,通过循环流进行了预先训练的扩散以及包括初始配对样品优化的渐进训练管道以及随后的大规模未配对的细化,Omn ...
随着LIDAR的感知范围的扩展,基于激光雷达的3D对象检测将不断增加自动驾驶中的远距离感知。主流3D对象探测器通常会构建密集的特征图,在该图上,成本与感知范围是二次的,因此几乎无法扩展到远程设置。为了实现有效的远程检测,我们首先提出了称为FSD的完全稀疏对象检测器 ...
在这项工作中,我们旨在使用具有一组参数的单个加固学习代理来解决大量任务。一个关键的挑战是处理增加的数据和延长培训时间。我们已经开发了一种新的分布式代理Impala(重要的加权演员学习者体系结构),该架构不仅在单机器训练中更有效地使用资源,而且在不牺牲数据效率或资源利用率的情况下将其扩展到数千台机器 ...