形状组装是日常生活中无处不在的任务,是构建宜家家具等复杂 3D 结构不可或缺的一部分。虽然在开发用于形状组装的自主代理方面取得了重大进展,但现有数据集尚未解决视频中组装指令的 4D 基础问题,而这对于随着时间的推移全面了解 3D 空间中的组装至关重要。我们介绍了 IKEA Video Manuals,这是一个数据集,其中包含家具零件的 3D 模型、指导手册、来自互联网的组装视频,最重要的是,这些数据模式之间的密集时空对齐注释 ...
人们越来越有兴趣通过更现实的大语言模型(LLM)代理来增强社交媒体平台(即X、Reddit)的基于规则的代理模型(ABM),从而可以对复杂系统进行更细致的研究 ...
虽然大型语言模型 (LLM) 在人工智能领域占据主导地位,但由于消费者对成本和效率的要求,小型大型语言模型 (SLM) 也越来越受到关注。然而,关于 SLM 的训练行为和计算要求的研究有限。在本研究中,我们通过检查各种超参数和配置(包括 GPU 类型、批量大小、模型大小、通信协议、注意力类型和 GPU 数量)的影响,探索训练 SLM(最多 2B 个参数)的计算瓶颈 ...
3D 生成模型的最新进展为模拟动态 3D 对象运动和自定义行为开辟了新的可能性,但创建此内容仍然具有挑战性。当前的方法通常需要手动分配精确的物理属性以进行模拟,或者依靠视频生成模型来预测它们,这是计算密集型的。在本文中,我们重新思考了多模态大语言模型 (MLLM) 在基于物理的仿真中的使用,并提出了 Sim Anything,这是一种基于物理的方法,赋予静态 3D 对象以交互动力学 ...
Segment Anything Model 2 (SAM 2) 在对象分割任务中表现出了强大的性能,但在视觉对象跟踪方面面临挑战,特别是在管理具有快速移动或自遮挡对象的拥挤场景时。此外,原始模型中的固定窗口内存方法没有考虑为调节下一帧的图像特征而选择的内存的质量,导致视频中的错误传播。本文介绍了 SAMURAI,它是 SAM 2 的增强版本,专为视觉对象跟踪而设计 ...
在实体智能系统中,一个关键组成部分是 3D 感知算法,它使智能体能够了解周围的环境。以前的算法主要依赖于点云,尽管点云提供了精确的几何信息,但由于固有的稀疏性、噪声和数据稀缺性,仍然限制了感知性能。在这项工作中,我们引入了一种新颖的以图像为中心的 3D 感知模型 BIP3D,它利用具有显式 3D 位置编码的表达图像特征来克服以点为中心的方法的局限性 ...
快速而准确的物理模拟是机器人学习的重要组成部分,机器人可以探索现实世界中难以产生的故障场景,并从无限的策略数据中学习。然而,将 RGB 颜色感知融入模拟到真实的管道中,使其与现实世界的丰富性和真实性相匹配,仍然具有挑战性。在这项工作中,我们模拟训练机器狗进行视觉跑酷 ...
稀疏自动编码器最近生成了与大型语言模型表示的概念范围相对应的高维向量字典。我们发现这个概念宇宙在三个层面上具有有趣的结构:1)“原子”小尺度结构包含面为平行四边形或梯形的“晶体”,概括众所周知的例子,例如(男人-女人-国王-女王) 。我们发现,当投影出全局干扰方向(例如字长)时,这种平行四边形和相关函数向量的质量大大提高,这可以通过线性判别分析有效地完成 ...
元学习已被提议作为解决具有挑战性的小样本学习环境的框架。关键思想是利用大量类似的小样本任务来学习如何使基础学习器适应只有少数标记样本可用的新任务。由于深度神经网络(DNN)往往仅使用少量样本就容易过度拟合,因此元学习通常使用浅层神经网络(SNN),从而限制了其有效性 ...
我们提出了 MoGe,这是一种从单目开域图像中恢复 3D 几何的强大模型。给定单个图像,我们的模型使用仿射不变表示直接预测捕获场景的 3D 点图,这与真实的全局尺度和偏移无关。这种新的表示形式可以消除训练中的模糊监督,并促进有效的几何学习 ...