流行的 3D 纹理生成方法通常依赖于多视图融合,经常受到视图间不一致和复杂表面覆盖不完整的阻碍,从而限制了生成内容的保真度和完整性。为了克服这些挑战,我们引入了 TEXTRIX,这是一种原生 3D 属性生成框架,用于高保真纹理合成和精确 3D 零件分割等下游应用。我们的方法构建了一个潜在的 3D 属性网格,并利用配备稀疏注意力的 Diffusion Transformer,实现了体积空间中 3D 模型的直接着色,从根本上避免了多视图融合的限制。基于这种原生表示,该框架通过训练相同的架构来预测网格上的语义属性,自然地扩展到高精度 3D 分割。大量实验证明了这两项任务的最先进性能,可生成无缝、高保真纹理和具有精确边界的准确 3D 零件分割 ...

0 0 0 0 2025/12/11 arXiv:2512.02993v1 GUN

在自动驾驶中,与传统感知任务(例如 3D 对象检测和鸟瞰图 (BEV) 语义分割)相比,3D 占用预测可输出体素状态和语义标签,以便更全面地理解 3D 场景。最近的研究人员广泛探索了这项任务的各个方面,包括视图转换技术、真实标签生成和精心设计的网络设计,旨在实现卓越的性能。然而,对于自动驾驶车辆运行至关重要的推理速度却被忽略了。为此,提出了一种称为 FastOcc 的新方法。通过仔细分析输入图像分辨率、图像主干、视图变换和占用预测头四个部分的网络效应和延迟,发现占用预测头在加速模型同时保持其准确性方面具有相当大的潜力。为了改进这个组件,耗时的 3D 卷积网络被一种新颖的类残差架构取代,其中特征主要由轻量级 2D BEV 卷积网络消化,并通过集成从原始图像特征插值的 3D 体素特征进行补偿。 Occ3D-nuScenes 基准测试表明,我们的 FastOcc 以快速推理速度实现了最先进的结果 ...

0 0 0 0 2025/12/11 arXiv:2403.02710v1 yan

端到端自动驾驶的生成扩散模型经常遭受模式崩溃的影响,往往会产生保守且同质的行为。虽然 DiffusionDrive 采用代表不同驾驶意图的预定义锚点来划分动作空间并生成多样化的轨迹,但其对模仿学习的依赖缺乏足够的约束,导致在多样性和一致的高质量之间陷入困境。在这项工作中,我们提出了 DiffusionDriveV2,它利用强化学习来限制低质量模式并探索更好的轨迹。这显着提高了整体输出质量,同时保留了其核心高斯混合模型固有的多模态。首先,我们使用适合轨迹规划的尺度自适应乘性噪声来促进广泛的探索。其次,我们使用锚内 GRPO 来管理从单个锚生成的样本之间的优势估计,并使用锚间截断的 GRPO 来整合不同锚之间的全局视角,防止不同意图之间的不正确的优势比较(例如,转弯与直行),这可能导致进一步的模式崩溃。在使用对齐的 ResNet-34 主干网的闭环评估中,DiffusionDriveV2 在 NAVSIM v1 数据集上实现了 91.2 PDMS,在 NAVSIM v2 数据集上实现了 85.5 EPDMS,创下了新记录。进一步的实验验证了我们的方法解决了截断扩散模型的多样性和一致的高质量之间的困境,实现了最佳的权衡。代码和模型将在此 https URL 中提供 ...

0 0 0 0 2025/12/11 arXiv:2512.07745v1 xubiao

生成推荐将每个项目表示为语义 ID,即离散标记序列,并通过自回归解码生成下一个项目。虽然有效,但现有的自回归模型面临两个内在的局限性:(1)单向约束,其中因果注意力限制每个标记仅关注其前一个标记,从而阻碍了全局语义建模; (2)错误累积,其中固定的从左到右的生成顺序导致早期 Token 中的预测错误传播到后续 Token 的预测。为了解决这些问题,我们提出了 LLaDA-Rec,这是一种离散扩散框架,它将推荐重新表述为并行语义 ID 生成。通过将双向注意力与自适应生成顺序相结合,该方法可以更有效地对项目间和项目内依赖关系进行建模,并减轻错误累积。具体来说,我们的方法包括三个关键设计:(1)并行标记化方案,为双向建模生成语义ID,解决残差量化和双向架构之间的不匹配问题; (2) 用户历史和下一个项目级别的两种屏蔽机制,用于捕获项目间顺序依赖关系和项目内语义关系; (3)用于自适应阶离散扩散解码的自适应波束搜索策略,解决了标准波束搜索与基于扩散的生成的不兼容性。对三个真实世界数据集的实验表明,LLaDA-Rec 始终优于基于 ID 和最先进的生成推荐器,将离散扩散建立为生成推荐的新范例 ...

0 0 0 0 2025/12/11 arXiv:2511.06254v1 llsun

灵巧的操纵,特别是熟练的协调和抓取,构成了机器人的基本且不可或缺的能力,有助于模仿人类的行为。将这种能力集成到机器人中,使它们能够补充甚至取代人类,在日常生活和工业环境中执行日益复杂的任务。不幸的是,由于任务的复杂性、广阔的机器人操作空间和动态障碍,当代方法在设计操作轨迹时遇到了严峻的挑战。我们提出了一种新方法 APEX,通过为机器人运动规划和操作引入无碰撞潜在扩散模型来解决所有这些困难。首先,我们将现实生活中双手灵巧的双臂机器人操作任务抽象为对齐两个向量,从而简化了它们的复杂性。其次,我们设计潜在扩散模型来产生各种机器人操纵轨迹。此外,我们利用分类器引导技术整合障碍物信息,从而保证生成的操纵轨迹的可行性和安全性。最后,我们通过在灵巧双臂机器人的硬件平台上进行的大量实验验证了我们提出的算法。我们的算法在不同的任务中始终如一地生成成功且无缝的轨迹,超越了传统的机器人运动规划算法。这些结果对扩散机器人的未来设计具有重要意义,增强了它们处理更复杂的机器人操作任务的能力,同时提高了效率和安全性。我们的实验的完整视频演示可以在此 https URL 中找到 ...

0 0 0 0 2025/12/11 arXiv:2404.02284v1 13718039169

在不同的机器人数据集上预训练的大型策略有可能改变机器人的学习:这种通用的机器人策略可以只用少量的领域内数据进行微调,但可以广泛推广,而不是从头开始训练新策略。然而,为了广泛适用于各种机器人学习场景、环境和任务,此类策略需要处理不同的传感器和动作空间,适应各种常用的机器人平台,并轻松有效地针对新领域进行微调。在这项工作中,我们的目标是为开发开源、广泛适用的机器人操纵通用政策奠定基础。作为第一步,我们引入了 Octo,这是一个基于 Transformer 的大型策略,在 Open X-Embodiment 数据集(迄今为止最大的机器人操作数据集)的 800k 轨迹上进行了训练。它可以通过语言命令或目标图像进行指令,并且可以在标准消费级 GPU 上在几个小时内通过新的感官输入和动作空间有效地微调机器人设置。在 9 个机器人平台的实验中,我们证明了 Octo 作为一种多功能策略初始化,可以有效地微调到新的观察和行动空间。我们还对 Octo 模型的设计决策(从架构到训练数据)进行了详细的消融,以指导未来构建通用机器人模型的研究 ...

0 0 0 0 2025/12/11 arXiv:2405.12213v2 13718039169

LLM 领域花了一年的时间完善强化学习,以解决机器已经擅长的任务,如数学、代码和确定性推理,同时完全回避了实际定义人类智能的领域:主观的、基于情感的、个性敏感的对话。这个空间通常被认为本质上是主观的,并且难以形式化,这使得它看起来不适合传统的强化学习管道。我们证明这不仅是可能的,而且是一个可解决的、变革性的强化学习问题。我们提出了第一个框架,可以动态推断用户个性并针对个性化对话偏好优化模型行为。人们普遍认为强化学习在不可验证的环境中会崩溃,与此相反,我们的方法在类人交互质量方面产生了一致、稳健和显着的改进。我们还引入了第一个动态情绪智力评估套件来量化这些收益。我们的模型被称为 Echo-N1,其性能远远高于其基础版本,并且优于专有的豆宝 1.5 角色。这项工作为强化学习开辟了一个新领域:针对对话的深刻主观、深刻人性维度优化模型 ...

0 0 0 0 2025/12/11 arXiv:2512.00344v1 leesongzero

我们研究知识图(KG)上的零样本链接预测问题,这需要模型概括新实体和新关系。知识图基础模型(KGFM)通过在节点和关系上强制等变来解决此任务,从节点和关系的结构属性中学习,然后将其转移到具有相似结构属性的新图。然而,确定性等变的传统概念对 KGFM 的表达能力施加了固有的限制,阻止它们区分结构相似但语义不同的关系。为了克服这一限制,我们引入了概率节点关系等方差,它保留了分布的等方差,同时结合了有原则的随机化以在推理过程中打破对称性。基于这一原则,我们提出了 Flock,这是一种 KGFM,它迭代地对随机游走进行采样,通过记录协议将它们编码为序列,将它们嵌入到序列模型中,并通过学习池聚合节点和关系的表示。至关重要的是,Flock 尊重概率节点关系等变性,并且是 KG 上同构不变链接级函数的通用逼近器。根据经验,Flock 完美地解决了我们新的诊断数据集 Petals 中当前 KGFM 失败的问题,并在来自不同领域的 54 个 KG 上的实体和关系预测任务上实现了最先进的性能 ...

0 0 0 0 2025/12/11 arXiv:2510.01510v1 a1341634323

时间意识是全大语言模型的一项基本能力,特别是对于理解长视频和回答复杂问题。以前的方法主要针对视觉语言场景,并专注于明确的时间基础问题,例如识别视觉事件何时发生或确定在特定时间发生什么事件。然而,他们经常没有充分利用音频模态,并且忽略了跨模态的隐式时间基础——例如,识别角色说话时视觉上呈现的内容,或者确定视觉事件发生时所说的内容——尽管这种跨模态时间关系在现实世界场景中很普遍。在本文中,我们提出了 ChronusOmni,这是一种全向大语言模型,旨在增强显式和隐式视听时间基础的时间意识。首先,我们在每个时间单元将基于文本的时间戳标记与视觉和音频表示交错,从而实现跨模态的统一时间建模。其次,为了强制执行正确的时间顺序并加强细粒度的时间推理,我们将强化学习与专门设计的奖励函数结合起来。此外,我们构建了 ChronusAV,一个时间准确、模态完整且跨模态对齐的数据集,以支持视听时间基础任务的训练和评估。实验结果表明,ChronusOmni 在 ChronusAV 上实现了最先进的性能,与其他时间基础基准相比,大多数指标都提高了 30% 以上,并且取得了最高的结果。这凸显了我们的模型跨模式的强大时间意识,同时保留了一般视频和音频理解能力 ...

0 0 0 0 2025/12/11 arXiv:2512.09841v1 zhangqi33

思想链 (CoT) 推理在解决自然语言处理中的复杂任务方面非常成功,最近的多模态大语言模型 (MLLM) 已将这种范式扩展到视频推理。然而,这些模型通常建立在冗长的推理链和大量输入视觉标记的基础上。受我们基准研究的实证观察的启发,我们假设简洁的推理与减少的视觉标记集相结合足以进行有效的视频推理。为了评估这一假设,我们设计并验证了一个高效的训练后和推理框架,该框架可增强视频 MLLM 的推理能力。我们的框架使模型能够对压缩的视觉标记进行操作,并在回答之前生成简短的推理轨迹。由此产生的模型显着提高了推理效率,在不同的基准测试中提供了具有竞争力的性能,并避免了对手动 CoT 注释或监督微调的依赖。总的来说,我们的结果表明,对于一般视频推理来说,长的、类人的 CoT 推理可能不是必需的,而且简洁的推理可以既有效又高效。我们的代码将在此 https URL 发布 ...

0 0 0 0 2025/12/11 arXiv:2512.09616v1 麦兜