基础模型通过对不同数据进行大规模预训练来学习高度可转移的表示。越来越多的研究表明,这些表示在架构和模式之间表现出显着程度的相似性。在这项调查中,我们研究了基础模型的表示潜力,定义为它们所学习的表示在单一模态中捕获特定于任务的信息的潜在能力,同时还为跨模态的对齐和统一提供可转移的基础。我们首先回顾代表性的基础模型和使一致性可测量的关键指标。然后,我们从视觉、语言、言语、多模态和神经科学的研究中综合表征潜力的经验证据。证据表明,基础模型通常在其表示空间中表现出结构规律和语义一致性,将它们定位为跨模式转移和对齐的有力候选者。我们进一步分析培养代表性潜力的关键因素,讨论悬而未决的问题,并强调潜在的挑战 ...

0 0 0 0 2026/02/06 arXiv:2510.05184v1 13766783701

在计算机视觉领域,视觉提示(VP)和视觉提示调整(VPT)最近已成为全面微调的轻量级且有效的替代方案,用于在“预训练然后微调”范式中适应大规模视觉模型。然而,尽管进展迅速,但它们的概念界限仍然模糊,因为 VP 和 VPT 在当前的研究中经常互换使用,反映出这些技术及其各自的应用之间缺乏系统的区别。在本次调查中,我们从第一原则重新审视 VP 和 VPT 的设计,并在称为基于提示的适应(PA)的统一框架内将它们概念化。我们提供了一种分类法,将现有方法分为可学习的、生成的和不可学习的提示,并通过注入粒度(像素级和 Token 级)进一步组织它们。除了核心方法之外,我们还研究了 PA 跨不同领域的集成,包括医学成像、3D 点云和视觉语言任务,以及它在测试时适应和值得信赖的 AI 中的作用。我们还总结了当前的基准并确定了主要挑战和未来方向。据我们所知,我们是第一个针对 PA 方法和应用的独特特征的综合调查。我们的调查旨在为所有领域的研究人员和从业者提供清晰的路线图,以了解和探索 PA 相关研究的不断发展的前景 ...

0 0 0 0 2026/02/06 arXiv:2510.13219v1 13766783701

代理人工智能的快速发展标志着人工智能进入了一个新阶段,大型语言模型 (LLM) 不再仅仅做出响应,而是采取行动、推理和适应。这项调查追踪了构建代理人工智能的范式转变:从基于管道的系统(其中规划、工具使用和内存由外部逻辑编排)到新兴的模型本机范式(其中这些功能在模型的参数中内化)。我们首先将强化学习(RL)定位为实现这种范式转变的算法引擎。通过将学习从模仿静态数据重新定义为结果驱动的探索,强化学习支撑了跨语言、视觉和具体领域的 LLM + RL + Task 的统一解决方案。在此基础上,该调查系统地回顾了每种能力(规划、工具使用和记忆)如何从外部脚本模块演变为端到端学习行为。此外,它还研究了这种范式转变如何重塑了主要代理应用程序,特别是强调长视野推理的深度研究代理和强调具体交互的 GUI 代理。最后,我们讨论了多代理协作和反射等代理功能的持续内化,以及未来代理人工智能中系统和模型层不断发展的角色。总之,这些发展勾画出了模型原生代理人工智能作为集成学习和交互框架的连贯轨迹,标志着从构建应用智能的系统到开发通过经验增长智能的模型的转变 ...

0 0 0 0 2026/02/06 arXiv:2510.16720v2 13766783701

完善的模块化自动驾驶系统被解耦为不同的独立任务,例如感知、预测和规划,遭受信息丢失和跨模块错误累积的困扰。相比之下,端到端范式将多任务统一到一个完全可微的框架中,允许以面向规划的精神进行优化。尽管端到端范式具有巨大潜力,但现有方法的性能和效率都不尽如人意,特别是在规划安全方面。我们将此归因于计算成本较高的 BEV(鸟瞰)功能以及预测和规划的简单设计。为此,我们探索了稀疏表示并回顾了端到端自动驾驶的任务设计,提出了一种名为 SparseDrive 的新范式。具体来说,SparseDrive由对称稀疏感知模块和并行运动规划器组成。稀疏感知模块将检测、跟踪和在线映射与对称模型架构结合起来,学习驾驶场景的完全稀疏表示。对于运动预测和规划,我们回顾了这两个任务之间的巨大相似性,从而实现了运动规划器的并行设计。基于这种将规划建模为多模态问题的并行设计,我们提出了一种分层规划选择策略,其中包含碰撞感知重新评分模块,以选择合理且安全的轨迹作为最终规划输出。凭借如此有效的设计,SparseDrive 在所有任务的性能上都大幅超越了之前的最先进水平,同时实现了更高的训练和推理效率。代码将在此 https URL 中提供,以方便将来的研究 ...

0 0 0 0 2026/02/06 arXiv:2405.19620v2 暖暖yiyi

虽然大型视觉语言模型(LVLM)在视频理解方面取得了实质性进展,但其在长视频推理中的应用受到统一帧采样和静态文本推理的阻碍,这些模型效率低下,难以处理视觉密集型视频任务。为了克服这些挑战,在本文中,我们引入了长视频思维的概念,并提出了一种新颖的框架 FrameThinker。在此框架内,LVLM 能够迭代地询问视频内容。在 LVLM 中开发此类视频推理功能提出了显着的挑战,特别是在使模型适应新的视频动作(例如选择帧)以及设计奖励函数以指导 LVLM 采用新引入的动作方面。为了解决这些挑战,我们提出了一个两阶段的训练策略,首先使用监督微调(SFT)来灌输基本的行动能力,然后使用强化学习(RL)来优化战略决策政策。值得注意的是,在这个强化学习阶段,我们对每个动作的奖励设计和奖励格式进行了深入而全面的探索。对 Video-Holmes、LongVideo-Reason 等推理基准测试以及 LongVideoBench、MLVU、VideoMME 和 LVBench 等长视频理解基准测试的大量实验表明,FrameThinker 与基准相比平均显着提高了 10.4%,同时大幅减少了处理帧的数量。最值得注意的是,我们的 7B 模型 FrameThinker 在 LongVideo-Reason 上建立了新的最先进技术,平均仅使用 20.6 帧即可实现 76.1% 的准确率。这不仅优于竞争产品 LongVILA-R1 (72.0%),而且帧数减少了 20 倍以上(与 512 相比),展现了无与伦比的效率和效果 ...

0 0 0 0 2026/02/06 arXiv:2509.24304v2 Curry123

将视频中的视觉运动节奏与给定的音乐曲目对齐是多媒体制作中的实际需求,但在自主视频编辑中仍然是一个尚未开发的任务。动作和音乐节拍之间的有效协调可以增强观众的参与度和视觉吸引力,特别是在音乐视频、宣传内容和电影编辑中。现有的方法通常依赖于劳动密集型的手动剪切、速度调整或基于启发式的编辑技术来实现同步。虽然一些生成模型处理联合视频和音乐生成,但它们经常将两种模式混在一起,限制了视频与音乐节拍对齐的灵活性,同时保留了完整的视觉内容。在本文中,我们提出了一种新颖且高效的框架,称为 MVAA(音乐视频自动对齐),它可以自动编辑视频以与给定音乐曲目的节奏保持一致,同时保留原始视觉内容。为了增强灵活性,我们在 MVAA 中将任务模块化为两个步骤:将运动关键帧与音频节拍对齐,然后进行节奏感知视频修复。具体来说,我们首先在与音乐节拍对齐的时间戳处插入关键帧,然后使用帧条件扩散模型生成连贯的中间帧,保留原始视频的语义内容。由于全面的测试时训练可能非常耗时,因此我们采用两阶段策略:在小视频集上预训练修复模块以学习一般运动先验,然后针对特定于视频的适应进行快速推理时间微调。这种混合方法可以在使用 CogVideoX-5b-I2V 作为骨干的单个 NVIDIA 4090 GPU 上在 10 分钟内完成一个 epoch 的适应。大量的实验表明,我们的方法可以实现高质量的节拍对齐和视觉平滑度 ...

0 0 0 0 2026/02/06 arXiv:2506.18881v1 En1gma3

视觉-语言-动作模型(VLA)代表了体现智能的重要前沿,旨在架起数字知识与物理世界交互的桥梁。虽然这些模型表现出了卓越的通才能力,但其部署却受到其底层大规模基础模型固有的大量计算和数据要求的严重阻碍。出于应对这些挑战的迫切需要,本次调查首次对整个数据模型训练过程中的高效视觉-语言-行动模型(高效 VLA)进行了全面审查。具体来说,我们引入了一个统一的分类法来系统地组织该领域的不同工作,将当前技术分为三个核心支柱:(1)高效模型设计,重点关注高效架构和模型压缩; (2)高效训练,减少模型学习过程中的计算负担; (3)高效数据采集,解决机器人数据获取和利用的瓶颈。通过在此框架内对最先进的方法进行批判性审查,本次调查不仅为社区建立了基础参考,还总结了代表性应用,描绘了关键挑战,并为未来的研究制定了路线图。我们维护一个不断更新的项目页面来跟踪我们的最新进展:此 https URL ...

0 0 0 0 2026/02/06 arXiv:2510.24795v2 13766783701

人类拥有空间推理能力,使他们能够通过视觉和声音等多模态观察来理解空间。大型多模态推理模型通过学习感知和推理来扩展这些能力,在不同的空间任务中显示出良好的性能。然而,这些模型的系统评价和公开可用的基准仍然有限。在本次调查中,我们对大型模型的多模态空间推理任务进行了全面回顾,对多模态大语言模型(MLLM)的最新进展进行了分类,并引入了开放的评估基准。我们首先概述一般空间推理,重点关注训练后技术、可解释性和架构。除了经典的 2D 任务之外,我们还研究空间关系推理、场景和布局理解,以及 3D 空间中的视觉问答和基础。我们还回顾了具体人工智能的进展,包括视觉语言导航和动作模型。此外,我们还考虑了音频和以自我为中心的视频等新兴模式,它们有助于通过新传感器实现新颖的空间理解。我们相信这项调查奠定了坚实的基础,并为不断发展的多模态空间推理领域提供了见解。有关本次调查、开放基准的代码和实施的更新信息可以在此 https URL 中找到 ...

0 0 0 0 2026/02/06 arXiv:2510.25760v2 13766783701

程序内容生成 (PCG) 在创建高质量 3D 内容方面功能强大,但控制它以生成所需的形状很困难,并且通常需要大量的参数调整。逆过程内容生成旨在自动找到输入条件下的最佳参数。然而,现有的基于采样和基于神经网络的方法仍然存在样本迭代次数过多或可控性有限的问题。在这项工作中,我们提出了 DI-PCG,这是一种根据一般图像条件进行逆 PCG 的新颖且有效的方法。其核心是轻量级的扩散变换器模型,直接将PCG参数作为去噪目标,将观测图像作为控制参数生成的条件。 DI-PCG 高效且有效。只需 760 万个网络参数和 30 个 GPU 小时的训练时间,它就在准确恢复参数方面表现出了卓越的性能,并且能够很好地推广到野外图像。定量和定性实验结果验证了 DI-PCG 在逆 PCG 和图像到 3D 生成任务中的有效性。 DI-PCG 为高效逆 PCG 提供了一种有前途的方法,并且代表了朝着 3D 生成路径迈出的宝贵探索一步,该路径对如何使用参数模型构建 3D 资产进行建模 ...

0 0 0 0 2026/02/06 arXiv:2412.15200v1 wonglliam

我们提出了 Pro-DG,一个用于程序可控的照片级真实感立面生成的框架,它将程序形状语法与基于扩散的图像合成相结合。从单个输入图像开始,我们使用语法规则重建其外观布局,然后通过用户定义的转换编辑该结构。由于立面本质上是多层次结构,因此我们引入了分层匹配程序,该程序将不同级别的立面结构对齐,用于引入控制图来指导生成扩散管道。这种方法保留了局部外观保真度,同时适应大规模编辑,例如地板复制或窗口重新排列。我们提供全面的评估,将 Pro-DG 与基于修复的基线和合成的基本事实进行比较。我们的用户研究和定量测量表明,建筑特征的保存得到了改善,编辑准确性也更高。我们的新颖方法是第一个将神经符号派生的形状语法与现代生成模型相结合进行建模的方法,并强调了此类方法在精确和可控图像处理方面的更广泛潜力 ...

0 0 0 0 2026/02/06 arXiv:2504.01571v1 wonglliam