视觉提示调整(VPT)已成为视觉转换器的参数高效微调范例,传统方法利用数据集级提示,在所有输入实例中保持相同。我们观察到,由于下游数据集的高方差,该策略会导致性能次优。为了应对这一挑战,我们提出了视觉实例感知提示调优(ViaPT),它根据每个单独的输入生成实例感知提示,并将其与数据集级提示融合,利用主成分分析(PCA)保留重要的提示信息。此外,我们揭示了 VPT-Deep 和 VPT-Shallow 代表了基于概念理解的两个极端情况,它们无法有效地捕获特定于实例的信息,而提示上的随机降维只能产生两个极端之间的性能。相反,ViaPT 通过平衡数据集级和实例级知识克服了这些限制,同时与 VPT-Deep 相比减少了可学习参数的数量。跨越 34 个不同数据集的广泛实验表明,我们的方法始终优于最先进的基线,为分析和优化视觉变换器的视觉提示建立了新的范例 ...

0 0 0 0 2026/02/12 arXiv:2507.07796v1 13766783701

尽管多模态大语言模型(MLLM)已经展示了有前途的多功能能力,但它们的性能仍然不如下游任务的专用模型,这使得有必要进行调整以增强其实用性。然而,微调方法需要对每个模型进行独立训练,从而导致巨大的计算和内存开销。在本文中,我们提出了一种新颖的设置,旨在通过一组针对下游任务优化的共享参数来提高不同 MLLM 的性能。为了实现这一目标,我们提出了可转移视觉提示(TVP),这是一种生成视觉提示的简单而有效的方法,可以转移到不同的模型,并在仅在一个模型上进行训练后提高其在下游任务上的性能。我们引入了两种策略来解决现有视觉提示方法的跨模型特征损坏问题,并增强所学提示的可迁移性,包括1)特征一致性对齐:对提示的特征变化施加约束,以维持与任务无关的知识; 2)任务语义丰富:在语言指导下鼓励提示图像包含更丰富的任务特定语义。我们通过使用 6 个现代 MLLM 进行广泛的实验来验证 TVP 的有效性,这些实验涉及从对象识别和计数到多模态推理和幻觉校正等各种任务 ...

0 0 0 0 2026/02/12 arXiv:2404.11207v1 13766783701

虽然通过从头开始对大量图像-文本对进行预训练来开发新的多模态 LLM (MLLM) 可能会非常消耗资源,但将现有的 LLM 与相对轻量级的视觉提示生成器 (VPG) 连接起来成为一种可行的范例。然而,进一步调整 MLLM 的 VPG 部分仍然面临着不可或缺的计算成本,即需要数千个 GPU 小时和数百万个训练数据。一种替代解决方案是将现有 VPG 从任何现有 MLLM 转移到目标 MLLM。在这项工作中,我们首次研究了 VPG 跨 LLM 的可转移性,并探索了降低 VPG 转移成本的解决方案。我们首先研究不同LLM规模(例如从小到大)以及不同LLM类型之间的VPG转移,通过这些我们诊断最大化转移效率的关键因素。根据我们的观察,我们设计了一个名为 VPGTrans 的两阶段传输框架,它简单而高效。通过大量的实验,我们证明 VPGTrans 有助于显着加快迁移学习过程,而不会影响性能。值得注意的是,与从头开始将 VPG 连接到 OPT$_\text{6.7B}$ 相比,它有助于实现从 BLIP-2 OPT$_\text{2.7B}$ 到 BLIP-2 OPT$_\text{6.7B}$ 的 VPG 传输,加速超过 10 倍,训练数据量为 10.7%。此外,还提供并讨论了一系列有趣的发现及其背后的潜在原理。最后,我们通过定制两个新颖的 MLLM(包括 VL-LLaMA 和 VL-Vicuna)以及最近发布的 LLaMA 和 Vicuna LLM,展示了 VPGTrans 方法的实用价值 ...

0 0 0 0 2026/02/12 arXiv:2305.01278v2 13766783701

当前调整预训练模型的操作方式涉及更新所有骨干参数,即完全微调。本文介绍了视觉提示调整(VPT)作为视觉中大规模 Transformer 模型全面微调的高效且有效的替代方案。受高效调整大型语言模型最新进展的启发,VPT 在输入空间中仅引入少量(不到模型参数的 1%)可训练参数,同时保持模型主干冻结。通过对各种下游识别任务进行大量实验,我们表明,与其他参数高效调整协议相比,VPT 实现了显着的性能提升。最重要的是,在许多情况下,VPT 在模型容量和训练数据规模方面甚至优于完全微调,同时降低了每个任务的存储成本 ...

0 0 0 0 2026/02/12 arXiv:2203.12119v2 13766783701

准确估计点击后转化率 (CVR) 对于推荐和广告等工业应用中的排名系统至关重要。传统的 CVR 建模应用流行的深度学习方法并实现了最先进的性能。然而,它在实践中遇到了一些特定于任务的问题,使得 CVR 建模具有挑战性。例如,传统的 CVR 模型使用点击印象的样本进行训练,同时利用所有印象的样本对整个空间进行推理。这会导致样本选择偏差问题。此外,还存在数据极度稀疏的问题,使得模型拟合相当困难。在本文中,我们充分利用用户操作的顺序模式,即展示 -> 点击 -> 转化,以全新的视角对 CVR 进行建模。所提出的整个空间多任务模型(ESMM)可以通过 i)直接在整个空间上建模 CVR,ii)采用特征表示迁移学习策略来同时消除两个问题。对从淘宝推荐系统收集的数据集进行的实验表明,ESMM 显着优于竞争方法。我们还发布了该数据集的样本版本,以支持未来的研究。据我们所知,这是第一个公共数据集,其中包含用于 CVR 建模的点击和转化标签的顺序依赖性的样本 ...

0 0 0 0 2026/02/12 arXiv:1804.07931v2 iheiyumao

在本文中,我们提出了 DiT-MoE,这是扩散 Transformer 的稀疏版本,它具有可扩展性,可与密集网络竞争,同时表现出高度优化的推理能力。 DiT-MoE包括两种简单的设计:共享专家路由和专家级平衡损失,从而捕获公共知识并减少不同路由专家之间的冗余。当应用于条件图像生成时,对专家专业化的深入分析获得了一些有趣的观察结果:(i)专家选择对空间位置和去噪时间步长表现出偏好,而对不同类条件信息不敏感; (二)随着教育部层次的深入,专家的选拔逐渐从特定的空间位置转向分散和平衡。 (iii) 专家专业化往往在早期时间步更加集中,然后在一半后逐渐均匀。我们将其归因于扩散过程,该过程首先对低频空间信息进行建模,然后对高频复杂信息进行建模。基于上述指导,一系列 DiT-MoE 在实验上实现了与密集网络相当的性能,但在推理过程中所需的计算负载要少得多。更令人鼓舞的是,我们展示了 DiT-MoE 在合成图像数据方面的潜力,以 16.5B 参数缩放扩散模型,在 512$\times$512 分辨率设置下获得了 1.80 的新 SoTA FID-50K 分数。项目页面:此 https URL ...

0 0 0 0 2026/02/12 arXiv:2407.11633v3 xf

学习控制、大规模仿真和生成模型的最新进展加速了通用机器人控制器的进展,但该领域仍然缺乏适合在人类环境中安全、富有表现力、长期部署的平台。大多数现有的类人机器人要么是封闭的工业系统,要么是学术原型,难以在人类周围部署和操作,限制了机器人技术的进步。 We introduce Sprout, a developer platform designed to address these limitations through an emphasis on safety, expressivity, and developer accessibility. Sprout adopts a lightweight form factor with compliant control, limited joint torques, and soft exteriors to support safe operation in shared human spaces. The platform integrates whole-body control, manipulation with integrated grippers, and virtual-reality-based teleoperation within a unified hardware-software stack.富有表现力的头部进一步促进了社交互动——对于大多数功利主义类人来说,这个领域仍未得到充分探索。通过降低部署的物理和技术障碍,Sprout 扩大了对功能强大的人形平台的访问,并为在真实人类环境中开发体现智能提供了实用基础 ...

0 0 0 0 2026/02/12 arXiv:2601.18963v1 yukun

最近,思想链(CoT)的引入极大地提高了统一模型的生成能力。然而,据观察,当前生成过程中的思维过程主要关注文本与文本提示的一致性,而忽略了多模态生成(例如多参考生成)期间与视觉参考图像的\textbf{视觉上下文一致性}。缺乏这种一致性会导致无法维护关键视觉特征(如人物 ID、对象属性、风格)。为此,我们将视觉上下文一致性融入到统一模型的推理中,通过以下方式明确激励模型维持这种一致性:1)自适应视觉规划:生成结构化视觉检查列表以找出所需保持一致性的视觉元素;2)迭代视觉校正:在检查列表的指导下进行自我反思,并以迭代方式细化生成的结果。为了实现这一目标,我们使用监督微调来教导模型如何规划视觉检查、进行自我反思和自我细化,并使用 flow-GRPO 通过定制的视觉检查奖励进一步增强视觉一致性。实验表明,我们的方法在多模态生成中优于零样本统一模型和具有文本 CoT 的模型,表现出更高的视觉上下文一致性 ...

0 0 0 0 2026/02/12 arXiv:2512.19686v1 xf

我们引入了 Green-VLA,这是一个分阶段的视觉-语言-动作 (VLA) 框架,用于在 Green 人形机器人上进行实际部署,同时保持跨不同实施例的通用性。 Green-VLA 遵循五个阶段的课程:(L0) 基础 VLM、(L1) 多模式基础、(R0) 多实施例预训练、(R1) 特定实施例适应和 (R2) 强化学习 (RL) 策略调整。我们将可扩展的数据处理管道(3,000 小时的演示)与时间对齐和质量过滤结合起来,并使用统一的、可感知实施例的操作界面,支持单一策略来控制人形机器人、移动操纵器和固定底座手臂。在推理时,VLA 控制器通过事件进展预测、分布外检测和基于联合预测的引导得到增强,以提高安全性和精确的目标选择。 Simpler BRIDGE WidowX 和 CALVIN ABC-D 上的实验以及真实机器人评估表明,RL 对齐在成功率、鲁棒性和长期效率方面具有很强的泛化性和性能增益 ...

0 0 0 0 2026/02/12 arXiv:2602.00919v1 hanzhuo

自动音乐字幕可以为给定的音乐曲目生成自然语言描述,在增强对大量音乐数据的理解和组织方面具有巨大的潜力。尽管它很重要,但由于现有音乐语言数据集的收集过程成本高昂且耗时且规模有限,研究人员面临着挑战。为了解决这个数据稀缺问题,我们建议使用大型语言模型(LLM)从大规模标签数据集中人工生成描述句子。这会产生大约 220 万个字幕和 050 万个音频剪辑。我们将其称为基于大型语言模型的伪音乐字幕数据集,简称 LP-MusicCaps。我们使用自然语言处理和人类评估领域使用的各种定量评估指标对大规模音乐字幕数据集进行系统评估。此外,我们使用数据集训练了基于 Transformer 的音乐字幕模型,并在零样本和迁移学习设置下对其进行了评估。结果表明,我们提出的方法优于监督基线模型 ...

0 0 0 0 2026/02/12 arXiv:2307.16372v1 jack_j