空间视觉感知是自动驾驶和机器人操作等物理世界应用的基本要求,这是由与 3D 环境交互的需求驱动的。使用 RGB-D 相机捕获像素对齐的度量深度将是最可行的方法,但它通常面临硬件限制和具有挑战性的成像条件带来的障碍,特别是在存在镜面或无纹理表面的情况下。在这项工作中,我们认为深度传感器的不准确性可以被视为“掩盖”信号,其本质上反映了潜在的几何模糊性。基于这一动机,我们提出了 LingBot-Depth,这是一种深度补全模型,它利用视觉上下文通过屏蔽深度建模来细化深度图,并结合用于可扩展训练的自动数据管理管道。令人鼓舞的是,我们的模型在深度精度和像素覆盖范围方面均优于顶级 RGB-D 相机。一系列下游任务的实验结果进一步表明,LingBot-Depth 提供了跨 RGB 和深度模式的对齐潜在表示。我们向空间感知社区发布代码、检查点和 3M RGB 深度对(包括 2M 真实数据和 1M 模拟数据) ...
我们推出了 CrystalDiT,这是一种用于生成晶体结构的扩散 Transformer ,它通过挑战架构复杂性的趋势来实现最先进的性能。 CrystalDiT 没有采用复杂的多流设计,而是采用了一个统一的 Transformer ,该 Transformer 施加了强大的归纳偏差:将晶格和原子属性视为一个单一的、相互依赖的系统。结合基于周期表的原子表示和平衡的训练策略,我们的方法在 MP-20 上实现了 8.78% SUN(稳定、独特、新颖)率,大大优于包括 FlowMM (4.21%) 和 MatterGen (3.66%) 在内的最新方法。值得注意的是,CrystalDiT 生成了 63.28% 的独特新颖结构,同时保持了相当的稳定性,这表明结构简单性比材料发现的复杂性更有效。我们的结果表明,在数据有限的科学领域,精心设计的简单架构优于容易过度拟合的复杂替代方案 ...
视频序列中的多目标跟踪(MOT)仍然是一项具有挑战性的任务,特别是在摄像机移动较大的场景中。这是因为目标可能在图像平面上大幅漂移,导致错误的跟踪结果。解决此类挑战通常需要补充外观提示或相机运动补偿 (CMC)。虽然这些策略很有效,但它们也带来了相当大的计算负担,给实时 MOT 带来了挑战。针对这一点,我们推出了 UCMCTrack,这是一种新型的基于运动模型的跟踪器,对相机运动具有鲁棒性。与逐帧计算补偿参数的传统 CMC 不同,UCMCTrack 在整个视频序列中一致应用相同的补偿参数。它在地平面上采用卡尔曼滤波器,并引入映射马哈拉诺比斯距离 (MMD) 作为传统交并并 (IoU) 距离测量的替代方案。通过利用地平面上的投影概率分布,我们的方法有效地捕获运动模式并熟练地管理单应性投影引入的不确定性。值得注意的是,UCMCTrack 仅依靠运动线索,就在各种具有挑战性的数据集(包括 MOT17、MOT20、DanceTrack 和 KITTI)中实现了最先进的性能。更多详细信息和代码可在此 https URL 获取 ...
一个强大的视觉-语言-动作 (VLA) 基础模型在机器人操作方面具有巨大的潜力,预计能够忠实地跨任务和平台进行泛化,同时确保成本效率(例如,适应所需的数据和 GPU 时间)。为此,我们开发了 LingBot-VLA,其中包含来自 9 种流行双臂机器人配置的约 20,000 小时的真实世界数据。通过对 3 个机器人平台进行系统评估,每个平台完成 100 个任务,每个任务有 130 个训练后片段,我们的模型比竞争对手取得了明显的优势,展示了其强大的性能和广泛的通用性。我们还构建了一个高效的代码库,在 8-GPU 训练设置下,每个 GPU 的吞吐量为每秒 261 个样本,与现有的面向 VLA 的代码库相比,速度提高了 1.5~2.8$\times$(取决于所依赖的 VLM 基本模型)。上述功能确保我们的模型非常适合实际部署。为了推动机器人学习领域的发展,我们提供对代码、基础模型和基准数据的开放访问,重点是实现更具挑战性的任务并促进健全的评估标准 ...
3D 语义场景完成 (SSC) 是一项不适定感知任务,需要从有限的观察中推断出密集的 3D 场景。由于固有的几何模糊性和不完整的观察,以前基于相机的方法很难预测准确的语义场景。在本文中,我们采用立体匹配技术和鸟瞰图(BEV)表示学习来解决 SSC 中的此类问题。立体匹配通过极线约束减轻了几何模糊性,而 BEV 表示则增强了具有全局语义上下文的不可见区域的幻觉能力,两者相辅相成。然而,由于立体几何和 BEV 特征之间固有的表示差距,将它们桥接起来以实现 SSC 的密集预测任务并非易事。因此,我们进一步开发了一个名为 BRGScene 的基于占用的统一框架,它有效地将这两种表示与密集的 3D 体积连接起来,以实现可靠的语义场景完成。具体来说,我们设计了一种新颖的相互交互集成(MIE)块,用于立体几何和 BEV 特征的像素级可靠聚合。在 MIE 块内,采用了双向可靠交互 (BRI) 模块,并通过置信度重新加权进行增强,用于通过相互指导鼓励细粒度交互。此外,还引入了双卷集成(DVE)模块,以通过通道方式重新校准和多组投票来促进互补聚合。我们的方法优于 SemanticKITTI 上所有已发布的基于相机的语义场景完成方法。我们的代码可以在此 https URL 上找到 ...
准确检测课堂视频中学生的行为有助于分析学生的课堂表现,提高教学效果。然而,目前行为检测的准确率较低。为了应对这一挑战,我们提出了基于YOLOv7-BRA(YOLOv7 with Bi-level Routing Attention)的学生课堂行为检测系统。我们确定了八种不同的行为模式,包括站立、坐着、说话、倾听、行走、举手、阅读和写作。我们构建了一个数据集,其中包含 11,248 个标签和 4,001 张图像,重点关注课堂环境中举手的常见行为(学生课堂行为数据集,SCB-数据集)。为了提高检测精度,我们在 YOLOv7 网络中添加了 biformer 注意力模块。最后,我们融合YOLOv7 CrowdHuman、SlowFast和DeepSort模型的结果,获得学生课堂行为数据。我们在SCB-Dataset上进行了实验,YOLOv7-BRA的mAP@0.5达到了87.1%,比之前的结果提高了2.2%。我们的 SCB 数据集可以从以下位置下载:此 https URL ...
在当今社会,我们越来越依赖软件系统。然而,我们也不断目睹有缺陷的软件的负面影响。程序综合的目的是通过在给定预期行为轮廓的情况下自动生成程序来提高软件的正确性。几十年来,程序综合一直是一个活跃的研究领域,最近的方法寻求合并大型语言模型来帮助生成代码。本文探讨了 LLM4TDD 的概念,其中我们指导大型语言模型使用测试驱动的开发方法迭代生成代码。我们使用 ChatGPT 和 LeetCode 的编码问题进行实证评估,以研究不同的测试、提示和问题属性对 LLM4TDD 功效的影响 ...
检索增强生成(RAG)可以通过引用外部文档来缓解大型语言模型(LLM)的幻觉。然而,外部文件中的错误信息可能会误导 LLM 的产生。为了解决这个问题,我们探索了“可信度感知 RAG”的任务,其中 LLM 根据可信度分数自动调整检索到的文档的影响,以抵消错误信息。为此,我们引入了一种名为 $\textbf{Cr}$edibility-aware $\textbf{A}$ttention $\textbf{M}$odification (CrAM) 的即插即用方法。 CrAM识别LLM中有影响力的注意力头,并根据文档的可信度调整其注意力权重,从而减少低可信度文档的影响。使用 Llama2-13B、Llama3-8B 和 Qwen1.5-7B 在自然问题和 TriviaQA 上进行的实验表明,CrAM 将 LLM 对抗错误信息污染的 RAG 性能提高了 20% 以上,甚至超越了监督微调方法 ...
多模态学习因其整合不同模态信息的能力而受到关注。然而,它经常受到多式联运不平衡问题的阻碍,其中某些方式占主导地位,而其他方式仍未得到充分利用。尽管最近的研究提出了多种方法来缓解这一问题,但缺乏全面和公正的比较。在本文中,我们根据各种主流多模态不平衡算法用于减轻不平衡的策略,将其系统地分为四组。为了便于对这些方法进行综合评估,我们引入了BalanceBenchmark,这是一个包含多个广泛使用的多维数据集和从性能、不平衡度和复杂度三个角度的评估指标的基准。为了确保公平比较,我们开发了一个模块化且可扩展的工具包,可以标准化不同方法的实验工作流程。基于使用 BalanceBenchmark 的实验,我们确定了不同方法组在性能、平衡度和计算复杂度方面的特征和优势的几个关键见解。我们期望此类分析能够激发更有效的方法来解决未来的不平衡问题以及基础模型。该工具包的代码可从此 https URL 获取 ...
用于数学推理的大型语言模型通常是通过基于结果的奖励进行训练的,该奖励仅归功于最终答案。在我们的实验中,我们观察到这种范式非常容易受到奖励黑客攻击,从而导致模型推理能力的大幅高估。假阳性的高发生率证明了这一点——通过不合理的推理过程得出正确的最终答案的解决方案。通过系统分析和人工验证,我们建立了这些故障模式的分类,识别奇迹步骤之类的模式 - 在没有有效的先前推导的情况下突然跳转到正确的输出。探索实验表明这些奇迹步骤与记忆之间存在很强的关联,模型似乎直接回忆答案而不是推导出答案。为了缓解这个系统性问题,我们引入了Rubric奖励模型(RRM),这是一种面向过程的奖励函数,可以根据特定问题的规则评估整个推理轨迹。生成式 RRM 提供细粒度、校准的奖励 (0-1),明确惩罚逻辑缺陷并鼓励严格的推论。当集成到强化学习管道中时,基于 RRM 的训练在四个数学基准上始终优于仅结果监督。值得注意的是,它将 AIME2024 上的 Verified Pass@1024 从 26.7% 提高到 62.6%,并将 Miracle Steps 的发生率降低了 71%。我们的工作表明,奖励解决过程对于构建不仅更准确而且更可靠的模型至关重要 ...