最先进的视频生成模型可以产生有前景的视觉内容,但往往违反基本物理原理,限制了它们的实用性。虽然有些人将这种缺陷归因于预训练的物理理解不足,但我们发现物理合理性的不足也源于次优的推理策略。因此,我们引入 WMReward 并将提高视频生成的物理合理性视为推理时间对齐问题。特别是,我们利用潜在世界模型(此处为 VJEPA-2)的强大物理先验作为搜索和引导多个候选去噪轨迹的奖励,从而能够扩展测试时间计算以获得更好的生成性能。根据经验,我们的方法大大提高了图像条件、多帧条件和文本条件生成设置的物理合理性,并得到了人类偏好研究的验证。值得注意的是,在ICCV 2025感知测试PhysicsIQ挑战赛中,我们取得了62.64%的最终成绩,获得第一名,比之前的最佳水平高出7.42%。我们的工作证明了使用潜在世界模型来提高视频生成的物理合理性的可行性,超越了这种特定的实例化或参数化 ...
扩散 Transformer (DiT) 已成为生成高质量图像和视频的事实上的选择,这主要是由于其可扩展性,可以构建更大的模型以增强性能。然而,这些模型尺寸的增加导致推理成本更高,从而使其对实时应用程序的吸引力降低。我们提出了快速前向缓存 (FORA),这是一种简单而有效的方法,旨在通过利用扩散过程的重复性来加速 DiT。 FORA 实现了一种缓存机制,可以跨去噪步骤存储和重用注意力层和 MLP 层的中间输出,从而减少计算开销。这种方法不需要模型重新训练,并且与现有的基于 Transformer 的扩散模型无缝集成。实验表明,FORA 可以将扩散 Transformer 加速数倍,同时对 IS 分数和 FID 等性能指标的影响极小。通过以最小的质量权衡实现更快的处理速度,FORA 代表了为实时应用部署扩散 Transformer 的重大进步。代码将在以下位置公开发布:此 https URL ...
毫米波(mmWave)和太赫兹(THz)通信系统采用大型天线阵列来保证足够的接收信号功率。然而,调整这些天线阵列的窄波束通常会产生高波束训练开销,该开销随着天线数量的增加而增加。最近提出的视觉辅助波束预测解决方案利用基站捕获的 \textit{原始 RGB 图像}来预测最佳波束,已显示出初步有希望的结果。然而,它们仍然具有相当大的计算复杂性,限制了它们在现实世界中的采用。为了应对这些挑战,本文重点开发和比较从视觉数据中提取轻量级语义信息的各种方法。结果表明,与之前提出的视觉辅助解决方案相比,所提出的解决方案可以显着降低计算要求,同时实现类似的光束预测精度 ...
传统中医 (TCM) 中的隐喻表达非常丰富,通过文化丰富且通常抽象的术语来传达复杂的疾病机制和整体健康概念。将这些隐喻与解剖学驱动的西方医学 (WM) 概念联系起来,给自动化语言处理和现实世界的临床实践带来了重大挑战。为了解决这一差距,我们提出了一种新颖的多主体和思想链(CoT)框架,旨在准确解释中医隐喻并将其映射到 WM 病理生理学。具体来说,我们的方法将领域专业代理(TCM 专家、WM 专家)与协调代理相结合,利用逐步的思想链提示来确保透明的推理和冲突解决。我们详细介绍了构建隐喻丰富的中医数据集的方法,讨论了有效整合多主体协作和 CoT 推理的策略,并阐明了指导跨不同医学范式的隐喻解释的理论基础。我们提出了一个全面的系统设计,并强调了我们方法的潜在好处和局限性,同时为未来的实验验证留下了占位符。我们的工作旨在支持临床决策、跨系统教育计划和综合医疗保健研究,最终为协调中医的符号语言与西医的机械焦点提供一个强大的支架 ...
标准大型语言模型 (LLM) 主要设计用于使用预定义输入进行静态推理,这限制了它们在动态实时场景中的适用性。为了解决这一差距,流媒体 LLM 范式应运而生。然而,流式LLM的现有定义仍然支离破碎,将流式生成、流式输入和交互式流式架构混为一谈,同时仍然缺乏系统的分类法。本文对流媒体 LLM 进行了全面的概述和分析。首先,我们基于数据流和动态交互建立了流式LLM的统一定义,以澄清现有的歧义。在此定义的基础上,我们提出了当前流媒体 LLM 的系统分类,并对其基本方法进行了深入讨论。此外,我们探索了流媒体 LLM 在现实场景中的应用,并概述了有前途的研究方向,以支持流媒体智能的不断进步。我们在此 https URL 维护一个不断更新的相关论文存储库 ...
少样本多模式工业异常检测是一项关键但尚未充分探索的任务,它提供了快速适应复杂工业场景的能力。在少样本设置中,训练样本不足通常无法覆盖测试样本中存在的多种模式。可以通过从少量训练样本中提取结构共性来缓解这一挑战。在本文中,我们提出了一种基于结构共性的新型少样本无监督多模态工业异常检测方法CIF(Commonality In Few)。为了提取类内结构信息,我们采用能够建模高阶相关性的超图来捕获训练样本中的结构共性,并使用内存库来存储该类内结构先验。首先,我们设计了一个针对单语义工业图像的语义感知超图构建模块,从中提取通用结构来指导记忆库的构建。其次,我们使用免训练的超图消息传递模块来更新测试样本的视觉特征,减少测试特征与存储库中的特征之间的分布差距。我们进一步提出了一种超边缘引导的内存搜索模块,它利用结构信息来辅助内存搜索过程并降低误报率。 MVTec 3D-AD 数据集和 Eyecandies 数据集上的实验结果表明,我们的方法在少样本设置中优于最先进的 (SOTA) 方法。代码可从此 https URL 获取 ...
本文介绍了 DashengTokenizer,这是一种连续音频分词器,专为在理解和生成任务中联合使用而设计。与训练声学分词器并随后集成冻结语义知识的传统方法不同,我们的方法颠倒了这种范式:我们利用冻结语义特征并注入声学信息。在 22 个不同任务的线性评估中,我们的方法显着优于以前的音频编解码器和音频编码器基线,同时保持有竞争力的音频重建质量。值得注意的是,我们证明这种声学注入可以提高语音情感识别、音乐理解和声学场景分类等任务的性能。我们进一步评估分词器在文本到音频(TTA)、文本到音乐(TTM)和语音增强(SE)方面的生成性能。我们的方法在 TTA 和 TTM 任务上超越了基于标准变分自动编码器 (VAE) 的方法,而其在 SE 上的有效性强调了其作为通用音频编码器的能力。最后,我们的结果挑战了基于 VAE 的架构是音频合成的先决条件的普遍假设。检查点可通过此 https URL 获取 ...
杂乱的 3D 环境中的敏捷无地图导航给自主无人机带来了重大挑战。传统的映射-规划-控制流程会产生高昂的计算成本并传播估计误差。我们提出了 AERO-MPPI,这是一个完全 GPU 加速的框架,它通过锚引导的模型预测路径积分 (MPPI) 优化器集合统一感知和规划。具体来说,我们设计了一种多分辨率激光雷达点云表示,可以快速提取空间分布的“锚点”作为前瞻中间端点,从中我们构建多项式轨迹指南来探索不同的同伦路径类别。在每个规划步骤中,我们并行运行多个 MPPI 实例,并使用平衡避免碰撞和实现目标的两阶段多目标成本来评估它们。 AERO-MPPI 完全使用 NVIDIA Warp GPU 内核实现,可实现实时板载操作并减轻单 MPPI 方法的局部最小值故障。在森林、垂直和倾斜环境中进行的广泛模拟表明,与最先进的基线相比,可实现 7 m/s 以上的持续可靠飞行,成功率超过 80%,并且轨迹更平滑。使用 NVIDIA Jetson Orin NX 16G 在配备 LiDAR 的四旋翼飞行器上进行的真实实验证实,AERO-MPPI 在机上实时运行,并在复杂杂乱的环境中始终实现安全、敏捷和稳健的飞行。论文被接受后,该代码将开源 ...
现实世界中富含接触的操作要求机器人感知时间触觉反馈,捕捉微妙的表面变形,并推理物体属性和力动力学。尽管光学触觉传感器具有独特的能力提供如此丰富的信息,但现有的触觉数据集和模型仍然有限。这些资源主要关注对象级属性(例如材料),而很大程度上忽略了物理交互过程中的细粒度触觉时间动态。我们认为,推进动态触觉感知需要动态感知能力的系统层次结构来指导数据收集和模型设计。为了解决缺乏具有丰富动态信息的触觉数据的问题,我们提出了 ToucHD,这是一个涵盖触觉原子动作、现实世界操作和触摸力配对数据的大规模分层触觉数据集。除了规模之外,ToucHD建立了一个全面的触觉动态数据生态系统,从数据角度明确支持分层感知能力。在此基础上,我们提出了 AnyTouch 2,这是一种适用于各种光学触觉传感器的通用触觉表示学习框架,它将对象级理解与细粒度、力感知的动态感知相结合。该框架捕获跨帧的像素级和特定于动作的变形,同时显式地建模物理力动力学,从而从模型的角度学习多层次的动态感知能力。我们在涵盖静态对象属性和动态物理属性的基准上评估我们的模型,以及跨越多层动态感知能力的现实世界操作任务——从基本的对象级理解到力感知的灵巧操作。实验结果表明,跨传感器和任务具有一致且强大的性能 ...
传统上,端到端机器人学习中的记忆涉及将一系列过去的观察结果输入到学习的策略中。然而,在复杂的多阶段现实世界任务中,机器人的记忆必须以多个粒度级别表示过去的事件:从捕获抽象语义概念的长期记忆(例如,做饭的机器人应该记住食谱的哪些阶段已经完成)到捕获最近事件并补偿遮挡的短期记忆(例如,机器人在手臂遮挡时记住它想要拾取的物体)。在这项工作中,我们的主要见解是,用于长视野机器人控制的有效内存架构应该结合多种模式来捕获这些不同的抽象级别。我们引入了多尺度嵌入记忆(MEM),这是一种在机器人策略中使用混合模式长视野记忆的方法。 MEM 将通过视频编码器压缩的基于视频的短视野内存与基于文本的长视野内存相结合。它们共同使机器人策略能够执行长达十五分钟的任务,例如清理厨房或准备烤奶酪三明治。此外,我们发现内存使 MEM 策略能够在上下文中智能地调整操作策略 ...