虽然大型语言模型 (LLM) 在自然语言处理方面已展现出巨大潜力,但需要多步骤逻辑、规划和验证的复杂通用推理仍然是一个关键瓶颈。尽管具有可验证奖励的强化学习(RLVR)在特定领域取得了成功,但该领域缺乏用于一般推理的大规模、高质量和难度校准的数据。为了解决这个问题,我们提出了 UltraLogic,这是一个框架,通过基于代码的解决方法将问题的逻辑核心与其自然语言表达分离,以自动化高质量的数据生成。该框架包含数百种独特的任务类型和跨十个难度级别的自动校准管道。此外,为了缓解二元奖励稀疏性和非负奖励陷阱,我们引入了双极浮动奖励(BFR)机制,利用分级惩罚来有效区分完美响应和有逻辑缺陷的响应。我们的实验表明,任务多样性是推理增强的主要驱动力,而 BFR 与难度匹配策略相结合,可以显着提高训练效率,引导模型走向全局逻辑最优 ...
大型视频扩散和流动模型在高质量视频生成方面取得了显着的成功,但由于其低效的多步采样过程,它们在实时交互应用中的使用仍然受到限制。在这项工作中,我们提出了过渡匹配蒸馏(TMD),这是一种将视频扩散模型蒸馏为高效的少步生成器的新颖框架。 TMD 的中心思想是将扩散模型的多步去噪轨迹与几步概率转移过程相匹配,其中每个转移都被建模为轻量级条件流。为了实现有效的蒸馏,我们将原始扩散主干分解为两个部分:(1)主干,包括大多数早期层,在每个外部转换步骤提取语义表示; (2) 流头,由最后几层组成,利用这些表示来执行多个内部流更新。给定一个预训练的视频扩散模型,我们首先向模型引入一个流头,并将其调整为条件流图。然后,我们将分布匹配蒸馏应用于学生模型,并在每个过渡步骤中推出流头。对提取 Wan2.1 1.3B 和 14B 文本到视频模型的大量实验表明,TMD 在生成速度和视觉质量之间提供了灵活且强大的权衡。特别是,在视觉保真度和即时依从性方面,TMD 在相当的推理成本下优于现有的蒸馏模型。项目页面:此 https URL ...
了解多模式视频广告对于改善查询AD匹配和相关性排名至关重要,从而增强了广告效率和用户体验。但是,具有高商业价值的多模式信息的有效利用仍然在很大程度上受到依赖高度压缩的视频嵌入 - 长期以来不足的限制。为了解决这个问题,我们提出了summa(总结多模式广告的缩写),这是一个多模式模型,将视频广告自动处理为摘要,突出了最高商业价值的内容,从而提高了其在Douyin Search-Vertvertvertanting-Dreventsising Systems中的理解和排名 ...
在这项工作中,我们重新审视了由 FixMatch 从半监督分类中推广的弱到强一致性框架,其中弱扰动图像的预测充当其强扰动版本的监督。有趣的是,我们观察到,当转移到我们的分割场景时,这样一个简单的管道已经取得了与最近的先进作品相比的竞争结果。它的成功在很大程度上依赖于强大数据增强的手动设计,然而,这可能是有限的并且不足以探索更广泛的扰动空间。受此启发,我们提出了辅助特征扰动流作为补充,从而扩大了扰动空间。另一方面,为了充分探测原始图像级增强,我们提出了一种双流扰动技术,使两个强视图能够同时由一个共同的弱视图引导。因此,我们的整体统一双流扰动方法 (UniMatch) 在 Pascal、Cityscapes 和 COCO 基准的所有评估协议中显着超越了所有现有方法。其优越性也体现在遥感解译和医学图像分析方面。我们希望我们复制的 FixMatch 和我们的结果能够激发更多未来的作品。代码和日志可从此 https URL 获取 ...
代理强化学习拥有先进的大型语言模型(LLM),可以通过长链思维轨迹进行推理,同时交错使用外部工具。现有方法假设工具库存固定,限制了 LLM 代理对新的或不断发展的工具集的适应性。我们提出了 AutoTool,一个框架,为 LLM 代理在整个推理轨迹中提供动态工具选择功能。我们首先构建了一个 20 万个数据集,其中包含 1,000 多个工具和 100 多个任务(涵盖数学、科学、代码生成和多模态推理)的明确工具选择原理。在此数据基础上,AutoTool 采用双阶段优化流程:(i) 用于连贯推理的监督和基于 RL 的轨迹稳定,以及 (ii) KL 正则化 Plackett-Luce 排名,以细化一致的多步骤工具选择。在十个不同的基准测试中,我们使用 AutoTool 训练了两个基本模型:Qwen3-8B 和 Qwen2.5-VL-7B。由于参数较少,AutoTool 始终优于先进的 LLM 代理和工具集成方法,在数学和科学推理方面平均提高 6.4%,在基于搜索的 QA 方面平均提高 4.5%,在代码生成方面平均提高 7.7%,在多模式理解方面平均提高 6.9%。此外,AutoTool 通过在推理过程中动态利用不断发展的工具集中未见过的工具,表现出更强的泛化能力 ...
大型语言模型(LLM)最近引起了广泛的关注,因为它们擅长针对多个领域的给定提示生成创新响应。然而, LLM 经常受到幻觉的固有限制,并在保持结构良好和连贯的反应的同时产生不正确的信息。在这项工作中,我们假设幻觉源于 LLM 的内部动力。我们的观察表明,在段落生成过程中, LLM 往往会在回答的微妙部分偏离事实准确性,最终转向错误信息。这种现象与人类认知相似,个人可能会在保持逻辑连贯性的同时产生幻觉,在其言语的较小片段中嵌入不确定性。为了进一步研究这一点,我们引入了一种创新方法 HalluShift,旨在分析内部状态空间的分布变化和 LLM 生成的响应的 Token 概率。与各种基准数据集的现有基线相比,我们的方法获得了卓越的性能。我们的代码库可通过此 https URL 获取 ...
通过重新排列初始排名列表,重新排名在现代多阶段推荐系统中发挥着至关重要的作用。由于组合搜索空间的固有挑战,当前的一些研究采用评估器-生成器范例,其中生成器生成可行序列,评估器根据估计的列表效用选择最佳序列。然而,这些方法仍然面临两个问题。首先,由于评估器和生成器之间的目标不一致问题,生成器倾向于拟合曝光分布的局部最优解,而不是组合空间优化。其次,逐一生成目标项的策略很难达到最优,因为它忽略了后续项的信息。为了解决这些问题,我们提出了一种利用邻居列表模型进行生成重排序(NLGR),其目的是提高生成器在组合空间中的性能。 NLGR遵循评估器-生成器范式,改进了生成器的训练和生成方法。具体来说,我们在组合空间中使用邻居列表来增强训练过程,使生成器感知相对分数并找到优化方向。此外,我们提出了一种新颖的基于采样的非自回归生成方法,该方法允许生成器灵活地从当前列表跳转到任何邻居列表。在公共和工业数据集上进行的大量实验验证了 NLGR 的有效性,我们已成功将 NLGR 部署在美团外卖平台上 ...
开放式摄制对象探测器可以使用简单的文本提示识别广泛的类别。但是,提高他们检测稀有类别或专门研究某些领域的能力仍然是一个挑战。尽管最近的方法依赖于一组模型权重进行适应,但我们通过使用模块化深度学习采用不同的方法 ...
端到端 (E2E) 语音对话系统越来越多地取代基于语音的人机交互的级联管道,直接处理原始音频而无需中间转录。现有的基准主要在合成语音和单轮任务上评估这些模型,而尚未充分开发实际的多轮对话能力。我们引入了 Audio MultiChallenge,这是一个开源基准测试,用于评估自然多轮交互模式下的端到端口语对话系统。基于基于文本的 MultiChallenge 框架,该框架评估推理记忆、指令保留和自连贯性,我们引入了一个新的轴语音编辑,用于测试中间语音修复和回溯的稳健性。我们进一步将每个轴扩展到音频模态,例如引入推理记忆的音频提示挑战,需要回忆语义内容之外的环境声音和副语言信号。我们通过混合音频原生代理和人机循环管道,整理了来自 47 位发言者的 452 个对话,其中包含 1,712 个特定于实例的规则,该管道大规模暴露模型故障,同时保留无脚本人类语音中发现的自然不流畅之处。我们对专有和开源模型的评估表明,即使是前沿模型也难以达到我们的基准测试,而我们性能最高的模型 Gemini 3 Pro Preview (Thinking) 的通过率达到了 54.65%。错误分析表明,模型在我们的新轴上最常失败,并且自连贯性随着音频上下文的延长而降低。这些失败反映了在自然口语对话中跟踪编辑、音频提示和远程上下文的困难。 Audio MultiChallenge 提供了一个可重复的测试平台来量化它们并推动音频原生多轮交互能力的改进 ...
大规模预训练文本到图像扩散模型的最新发展显着改善了高保真图像的生成,特别是随着扩散变换器模型(DiT)的出现。在扩散模型中,扩散变换器展示了卓越的图像生成能力,提高了较低的 FID 分数和更高的可扩展性。然而,由于参数数量过多,部署大规模 DiT 模型的成本可能会很高。尽管现有研究已经探索了扩散模型的有效部署技术,例如模型量化,但关于基于 DiT 的模型的工作仍然很少。为了解决这一研究空白,我们提出了 TerDiT,这是第一个针对极低位扩散 Transformer 模型的量化感知训练(QAT)和高效部署方案。我们专注于 DiT 网络的三元化,模型大小从 600M 到 4.2B,图像分辨率从 256$\times$256 到 512$\times$512。我们的工作有助于探索大规模 DiT 模型的高效部署,证明了从头开始训练极低位 DiT 模型的可行性,同时与全精度模型相比保持有竞争力的图像生成能力。我们的代码和预训练的 TerDiT 检查点已在此 https URL 发布 ...