我们应对从单个图像创建为家庭铰接物体创建3D资产的挑战。先前关于铰接对象创建的工作要么需要多视图多状态输入,要么仅允许对生成过程进行粗略控制。这些限制阻碍了铰接对象建模的可扩展性和实用性 ...
我们提出了f-vlm,一种基于冻结视觉和语言模型构建的简单开放词汇对象检测方法。f-vlm无需知识蒸馏或针对检测的预训练,从而简化了当前的多阶段训练流程。令人惊讶的是 ...
我们提出了对比特征屏蔽视觉 Transformer (CFM-VIT) - 一种图像文本预处理方法,该方法可以同时学习开放式视频器对象检测(OVD)的图像和区域级表示。我们的方法将蒙版的自动编码器(MAE)目标结合到对比度学习目标中,以改善本地化任务的表示形式。与标准MAE不同,我们在联合图像文本嵌入空间中执行重建,而不是像素空间那样的像素空间,这是经典MAE方法的习惯,这使该模型可以更好地学习区 ...
Transformer 提供了一类表达架构,这些体系结构对于序列建模极为有效。但是,变形金刚的关键限制是它们的二次内存和时间复杂性$ \ MATHCAL {O}(l^2)$相对于注意层中的序列长度,这将限制了非常长的序列的应用。大多数现有方法都利用注意力矩阵中的稀疏性或低排名的假设来降低成本,但牺牲表现力 ...
直接偏好优化 (DPO) 已成为一种重要的算法,用于将大型语言模型 (LLM) 与人类偏好直接、稳健地结合起来,为复杂的人类反馈强化学习 (RLHF) 提供了更直接的替代方案。尽管其功效很有前途,但 DPO 面临着一个显着的缺点:“冗长”,这是 RLHF 中也观察到的一种常见的过度优化现象。虽然之前的研究主要将冗长归因于数据中存在偏见的标签,但我们认为该问题还源于 DPO 固有的算法长度依赖 .. ...
近年来,人们对代码表示学习的兴趣日益增加,该学习旨在将源代码的语义代表到分布式向量中。当前,已经提出了各种作品来代表来自不同视图的源代码的复杂语义,包括纯文本,抽象语法树(AST)和几种代码图(例如, ...
培训有效的AI代理进行多转交互作用需要高质量的数据,以捕获现实的人类代理动力学,但是手动收集的数据却很少且昂贵。我们介绍了Apigen-MT,这是一个两阶段的框架,生成可验证和多样化的多转变代理数据。在第一阶段,我们的代理管道通过基本操作产生详细的任务蓝图,利用LLM审阅者委员会和迭代反馈循环 ...
在这项工作中,我们首次提出了一种离线策略梯度方法,用于从大量的现实世界演示中学习复杂城市驾驶的模仿策略。这是通过在感知输出和该区域的高保真高清地图之上构建可微的数据驱动模拟器来实现的。它使我们能够使用中级表示从现有演示中综合新的驾驶体验... ...