3D 高斯溅射 (3DGS) 因其在新颖视图合成和 3D 建模中的实时、逼真渲染而受到广泛关注。然而,现有方法很难准确地建模受瞬态对象影响的场景,从而导致渲染图像中出现伪影。我们发现,高斯致密化过程在增强场景细节捕捉的同时,通过增加模拟瞬态扰动的额外高斯,无意中导致了这些伪影 ...
从单个图像重建体积场景对于自动驾驶和机器人等广泛的应用至关重要。最近的体积重建方法取得了令人印象深刻的结果,但通常需要昂贵的 3D 地面实况或多视图监督。我们建议利用预先训练的二维扩散模型和深度预测模型从单个图像生成合成场景几何形状 ...
嵌入式人工智能 (EAI) 代理不断与物理世界交互,生成传统管理系统无法处理的大量异构多模式数据流。在本次调查中,我们首先系统评估了五种存储架构(图数据库、多模型数据库、数据湖、向量数据库和时序数据库),重点关注它们是否适合解决EAI的核心需求,包括物理接地、低延迟访问和动态可扩展性。然后,我们分析了五种检索范式(基于融合策略的检索、基于表示对齐的检索、基于图结构的检索、基于生成模型的检索和基于高 ...
部署人形机器人与现实世界环境交互(例如搬运物体或坐在椅子上)需要可概括的、逼真的运动和强大的场景感知。尽管之前的方法已经单独改进了每种功能,但将它们组合到一个统一的系统中仍然是一个持续的挑战。在这项工作中,我们提出了一个物理世界人形场景交互系统 PhysHSI,它使人形机器人能够自主执行各种交互任务,同时保持自然和逼真的行为 ...
将自然语言转换为 SQL (Test2SQL) 是自然语言理解和结构化数据访问交叉领域的一项长期挑战。虽然大型语言模型 (LLM) 显着提高了 SQL 生成的流畅性,但生成正确且可执行的 SQL(尤其是复杂查询)仍然是一个瓶颈。我们推出 Arctic-Text2SQL-R1,这是一个强化学习 (RL) 框架和模型系列,旨在使用仅基于执行正确性的轻量级奖励信号生成准确的可执行 SQL ...
本文评估了 28 种大型语言模型 (LLM) 的推理能力,其中包含 20 种可废止的推理模式,涉及非单调逻辑核心的泛型概括(例如“鸟会飞”、“乌鸦是黑的”) ...
LLM 越来越多地被部署为能够规划、推理和动态调用外部工具的代理、系统。然而,在视觉推理中,先前的方法在很大程度上仍然受到预定义工作流程和静态工具集的限制。在本报告中,我们介绍了 PyVision,这是一种交互式多轮框架,使 MLLM 能够自主生成、执行和完善针对当前任务量身定制的基于 Python 的工具,从而实现灵活且可解释的问题解决 ...
最近,使用统一的理论框架对连续归一化流(CNF)和扩散模型(DM)进行了研究。尽管此类模型可以从噪声分布中生成高质量的数据点,但采样需要多次迭代才能求解计算复杂度较高的常微分方程 (ODE)。大多数现有方法侧重于减少采样过程中的时间步数以提高效率 ...