多模态大型语言模型 (MLLM) 在解释复杂、像素丰富的图形用户界面 (GUI) 环境并与之交互方面表现出强大的潜力。然而,构建既能高效执行高级任务又能精确执行细粒度交互的代理仍然具有挑战性。 GUI 代理必须有效地执行日常操作,同时还要处理需要精确视觉基础的任务,但当准确性取决于识别特定界面元素时,现有方法会遇到困难。这些 MLLM 仍然很大,无法调整其推理深度以适应手头的任务。在这项工作中,我们介绍了 iSHIFT:带有灵活 Token 的隐式慢速混合推理,这是一种将潜在思维(隐式思维链)与感知控制模块集成在一起的轻量级代理。 iSHIFT 使 MLLM 能够在慢速模式和快速模式之间切换,慢速模式利用详细的视觉基础来实现高精度,而快速模式则使用全局线索来提高效率。特殊的感知标记引导人们对相关屏幕区域的注意力,从而使模型能够决定如何推理以及关注何处。尽管 iSHIFT 尺寸紧凑,只有 2.5B,但它在多个基准数据集上仍能达到最先进的性能 ...

0 0 0 0 2026/01/04 arXiv:2512.22009v1 Zhiyu_Yin

电子商务平台通常会在 Feed 中显示广告和有机项目的混合列表。一个关键问题是如何分配 feed 中有限的时段,以最大化整体收入并改善用户体验,这需要一个良好的用户偏好模型。排列信号不是对单个项目对用户行为的影响进行建模,而是对项目排列的影响进行建模,并可能导致更好的分配策略。然而,大多数先前的策略无法对此类信号进行建模,因此导致性能不佳。此外,广告曝光百分比(PAE)是广告分配的重要指标。 PAE过高会损害用户体验,而PAE过低则会降低平台收入。因此,如何将PAE约束在一定范围内,同时在PAE约束下保持个性化推荐是一个挑战。在本文中,我们提出了交叉深度 Q 网络(Cross DQN),通过交叉不同项目的嵌入并通过多通道注意力对交叉序列进行建模来提取关键的排列信号。此外,我们提出了 PAE 批量级约束的辅助损失来应对上述挑战。与离线实验中最先进的基准相比,我们的模型带来了更高的收入和更好的用户体验。此外,我们的模型在线上 A/B 测试方面取得了显着改进,并已全面部署在美团 Feed 上,服务超过 3 亿客户 ...

0 0 0 0 2026/01/04 arXiv:2109.04353v4 逸卿

丰富的接触操作取决于在整个操作任务中应用正确的抓握力,尤其是在处理易碎或可变形物体时。大多数现有的模仿学习方法通​​常仅将视觉触觉反馈视为额外的观察,而将施加的力视为夹具命令的不受控制的结果。在这项工作中,我们提出了力感知机器人操纵(FARM),这是一种模仿学习框架,它集成了高维触觉数据来推断触觉条件力信号,进而定义一个匹配的基于力的动作空间。我们使用集成了 GelSight Mini 视觉触觉传感器的手持式通用操作接口 (UMI) 夹具的改进版本收集人体演示。为了部署学习到的策略,我们开发了 UMI 夹具的驱动变体,其几何形状与我们的手持版本匹配。在策略推出期间,提出的 FARM 扩散策略联合预测机器人姿态、握力宽度和握力。 FARM 在具有不同力要求(高力、低力和动态力适应)的三项任务中优于多个基线,展示了其两个关键组成部分的优势:利用力接地、高维触觉观察和基于力的控制空间。代码库和设计文件是开源的,可通过此 https URL 获取 ...

0 0 0 0 2026/01/04 arXiv:2510.13324v1 13718039169

大型语言模型(LLM)在明确的文本计划的指导下,可以在解决问题期间执行可靠的逐步推理。然而,由于 LLM 的幻觉和特定任务问题的高度多样性,生成准确有效的文本计划仍然具有挑战性。为了解决这个问题,我们从人类的内隐认知(IC)中汲取灵感,这是一种潜意识过程,通过从过去的经验中学到的紧凑、概括的模式来指导决策,而不需要明确的语言表达。我们提出了 iCLP,这是一种新颖的框架,使 LLM 能够自适应地生成潜在计划(LP),这是有效推理指令的紧凑编码。 iCLP 首先从现有的逐步推理轨迹中提炼出明确的计划。然后,它通过与密码本相结合的矢量量化自动编码器来学习这些计划的离散表示。最后,通过对配对潜在计划和相应推理步骤上的 LLM 进行微调,模型学会在推理过程中执行隐式计划。数学推理和代码生成任务的实验结果表明,通过 iCLP, LLM 可以在潜在空间中进行规划,同时在语言空间中进行推理。这种方法在准确性和效率方面都取得了显着的提高,最重要的是,它展示了强大的跨领域泛化能力,同时保留了思想链推理的可解释性 ...

0 0 0 0 2026/01/04 arXiv:2512.24014v1 Zhiyu_Yin

分布式注意力是扩展大型语言模型(LLM)上下文窗口的一个基本问题。最先进的方法 Ring-Attention 由于通信流量过多而受到可扩展性的限制。本文通过使用新的基于矩阵的模型重新思考分布式注意力的设计空间,提出了一种新的分布式注意力算法Mesh-Attention。我们的方法将计算块的二维图块(而不是一维行或列)分配给每个 GPU,以通过降低通信计算 (CommCom) 比率来实现更高的效率。一般方法将 Ring-Attention 作为一种特殊情况,并允许使用不同的图块形状调整 CommCom 比率。重要的是,我们提出了一种贪婪算法,可以有效地搜索瓦片内的调度空间,并具有确保 GPU 之间有效通信的限制。理论分析表明,与现有的其他算法相比,Mesh-Attention 的通信复杂度要低得多,并且具有良好的可扩展性。我们大量的实验结果表明,Mesh-Attention 在 256 个 GPU 上可以实现高达 3.4 倍的加速(平均 2.9 倍),并减少高达 85.4%(平均 79.0%)的通信量。我们的可扩展性结果进一步证明,随着系统扩展,Mesh-Attention 可以保持卓越的性能,从而大大减少大规模部署中的开销。结果令人信服地证实了 Mesh-Attention 的优势 ...

0 0 0 0 2026/01/04 arXiv:2512.20968v1 AquupAQ

为实时、无限持续时间、音频驱动的化身生成部署大规模扩散模型提出了重大的工程挑战,这主要是由于计算负载和严格的延迟限制之间的冲突。现有方法经常通过强制执行严格的单向注意力机制或降低模型容量来损害视觉保真度。为了解决这个问题,我们引入了 \textbf{SoulX-LiveTalk},这是一个针对高保真实时流媒体优化的 14B 参数框架。与传统的单向范例不同,我们使用 \textbf{自校正双向蒸馏} 策略来保留视频块内的双向注意力。这种设计保留了关键的时空相关性,显着增强了运动连贯性和视觉细节。为了确保无限生成过程中的稳定性,我们采用了\textbf{多步回顾性自我修正机制},使模型能够从累积的错误中自主恢复并防止崩溃。此外,我们设计了一个包含混合序列并行性、并行 VAE 和内核级优化的全栈推理加速套件。广泛的评估证实,SoulX-LiveTalk 是第一个实现 \textbf{亚秒级启动延迟(0.87s)}同时达到 \textbf{32 FPS} 实时吞吐量的 14B 规模系统,为高保真交互式数字人合成树立了新标准 ...

0 0 0 0 2026/01/04 arXiv:2512.23379v2 bnexx

复杂的推理问题通常涉及未在文本中明确编码的隐式空间、几何和结构关系。虽然最近的推理模型在许多领域取得了强大的性能,但纯粹基于文本的推理很难表示复杂环境中的全局结构约束。在本文中,我们介绍了FIGR,它通过端到端强化学习将主动视觉思维集成到多轮推理中。 FigR 通过在解决问题期间构建视觉表示来具体化中间结构假设。通过自适应地调节何时以及如何调用视觉推理,FIGR 能够对难以仅从文本中捕获的全局结构属性进行更稳定和连贯的推理。对具有挑战性的数学推理基准的实验表明,FIGR 的性能优于强大的纯文本思维链基准。特别是,FIGR在AIME 2025上将基础模型改进了13.12%,在BeyondAIME上改进了11.00%,凸显了图形引导多模态推理在增强复杂推理稳定性和可靠性方面的有效性 ...

0 0 0 0 2026/01/04 arXiv:2512.24297v1 Zhiyu_Yin

对比语言图像预训练(CLIP)通过在共享嵌入空间中对齐图像和文本,在视觉语言任务中实现了强大的泛化。然而,最近的研究结果表明,类似 CLIP 的模型仍然没有充分利用文本中的细粒度语义信号,并且在处理长且详细的标题时,这个问题变得更加明显。这源于 CLIP 的训练目标,该目标仅优化全局图像文本相似性,而忽略了 token 级监督——限制了其实现细粒度视觉文本对齐的能力。为了解决这个问题,我们提出了 SuperCLIP,这是一个简单而有效的框架,可以通过基于分类的监督来增强对比学习。通过仅向视觉编码器添加轻量级线性层,SuperCLIP 利用 Token 级提示来增强视觉文本对齐 - 总 FLOP 仅增加 0.077%,并且不需要额外的注释数据。实验表明,SuperCLIP 持续改进了零样本分类、图像文本检索和纯视觉任务。无论模型是基于原始网络数据还是丰富的重新字幕数据进行训练,这些收益都保持不变,这证明了 SuperCLIP 在这两种情况下恢复文本监督的能力。此外,SuperCLIP 通过基于分类的监督避免了对大批量的依赖,缓解了 CLIP 小批量性能下降的问题。代码和模型将开源 ...

0 0 1 4 2026/01/04 arXiv:2512.14480v1 yuantao1224

在视频和图像生成任务中,扩散 Transformer (DiT)模型由于注意力机制而产生极高的计算成本,这限制了其实际应用。此外,随着硬件的进步,除图形处理单元(GPU)之外的各种设备,例如专用集成电路(ASIC),已越来越多地用于模型推理。稀疏注意力通过跳过对无关紧要标记的计算来利用注意力固有的稀疏性,是减轻计算成本的有效方法。然而,现有的稀疏注意力方法有两个关键限制:稀疏模式预测的开销和缺乏硬件通用性,因为这些方法大多数都是为 GPU 设计的。为了应对这些挑战,本研究提出了 RainFusion2.0,旨在开发一种在线自适应、硬件高效且低开销的稀疏注意力机制,以加速视频和图像生成模型,并在不同的硬件平台上具有强大的性能。关键技术见解包括:(1)利用逐块平均值作为稀疏掩模预测的代表标记; (2) 实现时空感知的 Token 排列; (3)引入专门针对视频生成场景设计的首帧接收机制。实验结果表明,RainFusion2.0可以实现80%的稀疏度,同时在不影响视频质量的情况下实现1.5~1.8倍的端到端加速。此外,RainFusion2.0 展示了跨各种生成模型的有效性,并验证了其跨不同硬件平台的泛化能力 ...

0 0 0 0 2026/01/04 arXiv:2512.24086v1 aloha

基于大模型的智能交互模型减少了不同系统平台上用户体验的差异,但面临多智能体协作和资源共享的挑战。为了展示跨不同基础软件平台的统一用户体验并解决资源协调管理挑战,本文提出了 KAOS,一种基于开源 Kylin 的多代理操作系统。该研究方法涉及使用大型模型来授权代理来为应用程序提供服务。首先,通过引入管理角色代理和垂直多代理协作来构建或替换典型应用软件。其次,通过研究系统级共享资源调度策略,提升用户体验,优化资源利用率。最后,通过实际应用和智能评分,验证了大模型多智能体操作系统的效率和优越性。论证了该系统的可行性,为多智能体操作系统的开发提供了新的视角。实验结果表明多智能体协作在各种应用场景中具有显着的优势 ...

0 0 0 0 2026/01/04 arXiv:2406.11342v3 justyn