对于全尺寸人形机器人来说,即使基于强化学习的控制取得了最新进展,在复杂地形(例如长楼梯)上实现可靠的运动仍然具有挑战性。在这种情况下,有限的感知、模糊的地形线索以及步态时机的适应不足,甚至可能导致单个错误的位置或不合时宜的步骤,导致快速失去平衡。我们引入了一种感知运动框架,它将地形感知、步态调节和全身控制合并到一个强化学习策略中。安装在底座下方的朝下深度摄像头观察脚周围的支撑区域,紧凑的 U-Net 从每一帧实时重建密集的以自我为中心的高度图,以与控制环路相同的频率运行。感知高度图与本体感受观察一起通过统一的策略进行处理,该策略产生联合命令和全局步进相位信号,允许步态定时和全身姿势共同适应命令的运动和局部地形几何形状。我们进一步采用单阶段连续师生培训计划,以实现高效的政策学习和知识转移。在 31 自由度、1.65 m 人形机器人上进行的实验证明了在模拟和现实环境中的稳健运动,包括向前和向后的楼梯上升和下降,以及跨越 46 厘米的间隙。项目页面:这个 https URL ...
我们提出了一种新颖的模块化端到端框架,使用单个光检测和测距(LiDAR)传感器在复杂的动态环境中进行腿式反应导航。该系统包括四个模拟训练模块:三个用于运动、安全屏蔽和导航的强化学习(RL)策略,以及一个基于 Transformer 的外部感受估计器,用于处理原始点云输入。这种复杂的腿部运动控制任务的模块化分解使得轻量级神经网络具有简单的架构,使用标准强化学习实践进行训练,并进行有针对性的奖励塑造和课程设计,而不依赖启发式或复杂的策略切换机制。我们进行全面的消融来验证我们的设计选择,并在具有挑战性的导航任务中展示与现有方法相比改进的稳健性。由此产生的反应式安全导航 (REASAN) 系统可在复杂环境中的单机器人和多机器人设置中实现完全机载和实时反应式导航。我们在此 https URL 发布我们的训练和部署代码 ...
沉浸式视觉体验的日益普及增加了人们对立体 3D 视频生成的兴趣。尽管视频合成取得了重大进展,但由于 3D 视频数据相对稀缺,创建 3D 视频仍然具有挑战性。我们提出了一种将文本到视频生成器转换为视频到立体声生成器的简单方法。给定输入视频,我们的框架会自动从移动的视点生成视频帧,从而实现引人注目的 3D 效果。用于此任务的先前和并发方法通常分多个阶段操作,首先估计视频视差或深度,然后相应地扭曲视频以产生第二视图,最后修复被遮挡的区域。当场景涉及镜面表面或透明物体时,这种方法本质上会失败。在这种情况下,单层视差估计是不够的,导致扭曲过程中出现伪影和不正确的像素移位。我们的工作通过直接综合新观点来绕过这些限制,避免任何中间步骤。这是通过利用预先训练的视频模型在几何、物体材料、光学和语义方面的先验知识来实现的,而不依赖于外部几何模型或手动从合成过程中分离几何。我们在具有不同物体材料和成分的复杂现实场景中展示了我们的方法的优势。观看此 https URL 上的视频 ...
高可信度推理,特别是在法律和医学等关键领域,需要准确、可验证且明确基于证据的结论。这种推理依赖于从规则、法规和合同中编纂的前提,由于存在大量例外,本质上涉及可废止或非单调逻辑,其中引入单个事实可能会使一般规则失效,从而构成重大挑战。虽然大型语言模型 (LLM) 擅长处理自然语言,但它们在标准推理任务中的能力并不能转化为高可信度文本指南所需的严格推理。此类文本中的核心推理挑战通常表现出特定的逻辑结构,涉及否定、暗示,以及最关键的可废止的规则和例外。在本文中,我们提出了一种名为 LOGicalThought (LogT) 的新颖的基于神经符号的架构,它使用高级逻辑语言和推理器与 LLM 结合来构建双重符号图上下文和基于逻辑的上下文。这两种上下文表示将问题从对长格式指导方针的推理转变为紧凑的基础评估。根据四个基准对四个多领域基准进行评估,LogT 将所有 LLM 的整体性能提高了 11.84%。所有三种推理模式的性能均显着提高:与最强基线相比,否定推理提高了 10.2%,蕴含推理提高了 13.2%,可废止推理提高了 5.5% ...
小分子、肽和抗体等靶标特异性分子的设计对于生物研究和药物发现至关重要。现有的生成方法仅限于单域分子,无法满足多种治疗需求或利用跨域可转移性来增强模型性能。在本文中,我们介绍了 3D 分子统一生成建模 (UniMoMo),这是第一个能够使用单个模型设计多个分子域结合物的框架。特别是,UniMoMo 将不同分子的表示统一为块图,其中每个块对应于标准氨基酸或分子片段。随后,UniMoMo 利用几何潜在扩散模型进行 3D 分子生成,采用迭代全原子自动编码器将块压缩为潜在空间点,然后进行 E(3) 等变扩散过程。跨肽、抗体和小分子的广泛基准证明了我们的统一框架相对于现有特定领域模型的优越性,凸显了多领域训练的好处 ...
最近,ChatGPT-4o 强大的文本到图像功能让人们越来越欣赏原生多模态大语言模型。然而,其多模式功能仍然仅限于图像和文本。然而,除了图像之外,理解和生成 3D 内容的能力也同样重要。为了解决这一差距,我们提出了 ShapeLLM-Omni - 一种原生 3D 大语言模型,能够理解和生成任何序列的 3D 资产和文本。首先,我们训练 3D 矢量量化变分自动编码器 (VQVAE),它将 3D 对象映射到离散潜在空间,以实现高效、准确的形状表示和重建。基于3D感知离散标记,我们创新性地构建了一个名为3D-Alpaca的大规模连续训练数据集,涵盖生成、理解和编辑,从而为未来的研究和训练提供丰富的资源。最后,通过在 3D-Alpaca 数据集上对 Qwen-2.5-vl-7B-Instruct 模型进行基于指令的训练。我们的工作为扩展具有基本 3D 功能的多模态模型提供了有效的尝试,这有助于 3D 原生人工智能的未来研究。项目页面:此 https URL ...
本文解决了 \textbf{开放式深度研究 (OEDR)},这是一个复杂的挑战,人工智能代理必须将大量网络规模的信息合成为富有洞察力的报告。当前的方法受到双重限制的困扰:静态研究流程将规划与证据获取脱钩,而单一的生成范式包括冗余、不相关的证据,存在幻觉问题和引用准确性低。为了应对这些挑战,我们引入了 \textbf{WebWeaver},这是一种模拟人类研究过程的新型双代理框架。规划器在动态循环中运行,迭代地将证据获取与大纲优化交织在一起,以生成与证据记忆库链接的全面的、基于引文的大纲。然后,作者执行分层检索和编写过程,逐节撰写报告。通过对每个部分的引用,仅从记忆库中有针对性地检索必要的证据,可以有效地缓解长上下文问题和引用幻觉。我们的框架在主要 OEDR 基准上建立了新的最先进的标准,包括 DeepResearch Bench、DeepConsult 和 DeepResearchGym。这些结果验证了我们以人为本的迭代方法,表明自适应规划和重点综合对于生成全面、可信且结构良好的报告至关重要 ...
要实现大规模 MIMO 系统的潜在增益,需要准确估计其信道或对其窄波束进行微调。然而,这通常与高信道获取/波束扫描开销相关,该开销随着天线数量的增加而增加。机器和深度学习具有从先前观察和辅助信息中学习的强大能力,是克服这些挑战的有前途的方法。然而,训练机器和深度学习模型需要大规模数据集,而在已部署的系统中收集这些数据集的成本很高。为了应对这一挑战,我们提出了一个新的方向,即利用物理世界的数字副本来减少甚至消除 MIMO 信道获取开销。在所提出的数字孪生辅助通信中,构建了近似真实世界通信环境的 3D 模型,并利用精确的光线追踪来模拟特定站点的信道。这些通道可用于帮助执行各种通信任务。此外,我们建议使用机器学习来近似数字副本并减少光线追踪计算成本。为了评估所提出的基于数字孪生的方法,我们进行了一个专注于位置辅助光束预测任务的案例研究。结果表明,仅使用数字副本生成的数据训练的学习模型可以在现实数据上取得相对较好的性能。此外,少量的现实世界数据点可以快速实现接近最佳的性能,克服物理世界和数字世界之间的建模不匹配,并显着减少数据采集开销 ...
扩散模型已成为 3D 生成的流行方法。然而,扩散模型如何有效地生成多样化且高质量的 3D 形状仍然具有挑战性。在本文中,我们介绍了OctFusion,它可以在单个Nvidia 4090 GPU上在2.5秒内生成任意分辨率的3D形状,并且保证提取的网格是连续的和流形的。 OctFusion 的关键组件是基于八叉树的潜在表示和随附的扩散模型。该表示结合了隐式神经表示和显式空间八叉树的优点,并通过基于八叉树的变分自动编码器进行学习。所提出的扩散模型是一个统一的多尺度 U-Net,可以跨不同八叉树级别共享权重和计算,并避免广泛使用的级联扩散方案的复杂性。我们验证了 OctFusion 在 ShapeNet 和 Objaverse 数据集上的有效性,并在形状生成任务上实现了最先进的性能。我们通过生成用于纹理网格生成的高质量色域以及根据文本提示、草图或类别标签生成高质量 3D 形状来证明 OctFusion 具有可扩展性和灵活性。我们的代码和预训练模型可从此 https URL 获取 ...
扩散变形金刚在视觉合成方面表现出了卓越的能力,但它们经常在高级语义推理和长期规划方面遇到困难。这种限制经常导致视觉幻觉和与用户指令的错位,特别是在涉及复杂场景理解、人与物体交互、多阶段动作和上下文运动推理的场景中。为了应对这些挑战,我们提出了 Plan-X,这是一个明确执行高级语义规划来指导视频生成过程的框架。其核心是语义规划器,这是一种可学习的多模态语言模型,可以根据文本提示和视觉上下文推理用户的意图,并自回归生成一系列基于文本的时空语义标记。这些语义标记与高级文本提示指导相辅相成,随着时间的推移,可以充当视频传播模型的结构化“语义草图”,该模型在合成高保真视觉细节方面具有优势。 Plan-X 有效地整合了语言模型在多模态上下文推理和规划中的优势以及扩散模型在逼真视频合成中的优势。大量的实验表明,我们的框架大大减少了视觉幻觉,并能够生成与多模态上下文一致的细粒度、指令一致的视频生成 ...