大型语言模型 (LLM) 最近在多种模式的语音识别方面取得了令人印象深刻的成果,包括听觉语音识别 (ASR)、视觉语音识别 (VSR) 和视听语音识别 (AVSR)。尽管取得了这些进展,当前基于 LLM 的方法通常独立地处理每个任务,训练单独的模型,从而提高计算和部署资源的使用,同时缺少潜在的跨任务协同效应。它们还依赖于固定速率的 Token 压缩,这限制了平衡准确性和效率的灵活性。这些限制突出表明需要一个能够支持 ASR、VSR 和 AVSR 同时实现弹性推理的统一框架。为此,我们推出了 Omni-AVSR,这是一种统一的视听 LLM,它将高效的多粒度训练与参数高效的适应相结合。具体来说,我们采用俄罗斯套娃表示学习范式来有效地跨多个音频和视觉粒度进行训练,减少其固有的训练资源使用。此外,我们探索了三种基于 LoRA 的策略,以适应主干 LLM 、平衡共享和特定任务的专业化。 LRS2 和 LRS3 上的实验表明,Omni-AVSR 实现了与最先进的基线相当或更高的准确性,同时以大幅降低的训练和部署资源使用来训练单个模型。该模型在声学噪声下也保持稳健,我们分析了其随着 LLM 规模增加的扩展行为,为性能和效率之间的权衡提供了见解 ...
具有可验证奖励的强化学习(RLVR)已成为增强大型语言模型(LLM)推理能力的重要范例。然而,LLM 的熵通常在 RLVR 训练期间崩溃,导致过早收敛到次优局部最小值并阻碍进一步的性能提升。尽管已经提出了各种方法来减轻熵崩溃,但仍然缺乏对 RLVR 中熵的全面研究。为了弥补这一差距,我们进行了广泛的实验来研究使用 RLVR 训练的 LLM 的熵动态,并分析模型熵如何与各种基准的响应多样性、校准和性能相关。我们的结果确定了影响熵的三个关键因素:优化目标中的裁剪阈值、离策略更新的数量以及训练数据的多样性。此外,通过理论分析和实证验证,我们证明具有积极优势的 Token 是熵崩溃的主要驱动因素。受这一见解的启发,我们提出了正优势重新加权,这是一种简单而有效的方法,通过调整分配给 RLVR 训练期间具有正优势的 Token 的损失权重来调节模型熵,同时保持竞争性能 ...
在本文中,我们要问:什么真正决定了强化学习训练数据对于增强语言模型推理能力的有效性?虽然 o1、Deepseek R1 和 Kimi1.5 等最新进展展示了强化学习的潜力,但训练数据要求缺乏透明度阻碍了系统的进步。直接从基础模型开始,无需蒸馏,我们对扩大 RL 训练数据本质上提高性能的假设提出了挑战。我们证明,策略性选择的仅 1,389 个样本的子集可以优于完整的 8,523 个样本数据集。我们引入了学习影响测量 (LIM),这是一种自动化方法,用于根据训练样本与模型学习轨迹的一致性来评估训练样本并确定其优先级,从而实现高效的资源利用和可扩展的实施。与完整的 8,523 个样本数据集相比,我们的方法仅使用 1,389 个样本就实现了相当甚至更好的性能。值得注意的是,虽然最近的数据高效方法(例如 LIMO 和 s1)在 32B 规模的模型中表现出了希望,但我们发现通过监督微调(SFT),它在 7B 规模的模型上表现明显不佳。相比之下,我们基于 RL 的 LIMR 在 AIME24 上的准确度提高了 16.7%,在 MATH500 上比 LIMO 和 s1 分别高出 13.0% 和 22.2%。这些结果从根本上重塑了我们对 LLM 中强化学习缩放的理解,表明精确的样本选择(而不是数据缩放)可能是解锁增强推理能力的关键。为了可重复的研究和未来的创新,我们在此 https URL 上开源 LIMR,包括 LIM、训练和评估代码、精选数据集和训练模型的实施 ...
后训练已经证明了其在增强大型语言模型(LLM)推理能力方面的重要性。主要的训练后方法可以分为监督微调(SFT)和强化微调(RFT)。 SFT 高效且非常适合小型语言模型,但它可能会导致过度拟合并限制较大模型的推理能力。相比之下,RFT 通常会产生更好的泛化能力,但在很大程度上取决于基础模型的强度。为了解决 SFT 和 RFT 的局限性,我们提出了统一微调(UFT),这是一种新颖的后训练范式,将 SFT 和 RFT 统一为单个集成过程。 UFT 使模型能够有效地探索解决方案,同时结合信息丰富的监督信号,弥合现有方法的记忆和思考之间的差距。值得注意的是,无论模型大小如何,UFT 通常都优于 SFT 和 RFT。此外,我们从理论上证明,UFT 打破了 RFT 固有的指数样本复杂性瓶颈,首次表明统一训练可以指数加速长视野推理任务的收敛 ...
在视觉语音处理中,由于嘴唇运动的模糊性,上下文建模能力是最重要的要求之一。例如,同音词,即具有相同嘴唇动作但发出不同声音的单词,可以通过考虑上下文来区分。在本文中,我们提出了一种新颖的框架,即与 LLM 相结合的视觉语音处理(VSP-LLM),通过发挥 LLM 的压倒性力量来最大化上下文建模能力。具体来说,VSP-LLM 旨在执行视觉语音识别和翻译的多任务,其中给定的指令控制任务的类型。通过采用自监督视觉语音模型将输入视频映射到 LLM 的输入潜在空间。针对输入帧中存在冗余信息的事实,我们提出了一种新颖的重复数据删除方法,通过使用视觉语音单元来减少嵌入的视觉特征。通过所提出的重复数据删除和低秩自适应(LoRA),VSP-LLM 可以以计算有效的方式进行训练。在翻译数据集(MuAViC 基准)中,我们证明,与最近使用 433 小时数据训练的模型相比,仅使用 30 小时标记数据训练的 VSP-LLM 可以更有效地翻译嘴唇运动 ...
强化学习 (RL) 已成为优化大型语言模型 (LLM) 以处理复杂推理任务的强大范例。这一过程的核心挑战在于管理策略熵,它反映了训练过程中探索和利用之间的平衡。现有方法,例如近端策略优化(PPO)及其变体,由于裁剪机制而丢弃了来自低概率 Token 的有价值的梯度信号。我们系统地分析了熵动力学,并揭示了这些被剪切的标记在调节熵演化中发挥着关键但被忽视的作用。我们提出通过 \textbf{G}radient-\textbf{P} 保留 \textbf{P}olicy \textbf{O}ptimization (CE-GPPO) 来协调 \textbf{E}ntropy,这是一种新颖的算法,它以温和且有界的方式重新引入原生 PPO 中剪切标记的梯度。通过控制裁剪区间之外的 token 的梯度大小,CE-GPPO 能够实现探索与利用的权衡。我们提供的理论依据和经验证据表明 CE-GPPO 有效减轻了熵不稳定性。数学推理基准的大量实验表明,CE-GPPO 在不同模型规模上始终优于强大的基线 ...
基于文本的人物搜索 (TBPS) 可以使用自然语言描述从大型数据库中检索人物图像,为监控应用提供重要价值。然而,一个主要挑战在于获取高质量文本注释的劳动密集型过程,这限制了可扩展性和实际部署。为了解决这个问题,我们引入了两个补充模块:多轮文本生成(MTG)和多轮文本交互(MTI)。 MTG 通过与 MLLM 的模拟对话生成丰富的伪标签,无需人工监督即可生成细粒度且多样化的视觉描述。 MTI 通过基于对话的动态推理在推理时细化用户查询,使系统能够解释和解决模糊、不完整或不明确的描述 - 这些特征在现实世界的搜索场景中经常出现。 MTG 和 MTI 共同形成了一个统一且无注释的框架,可显着提高检索准确性、稳健性和可用性。广泛的评估表明,我们的方法取得了有竞争力或卓越的结果,同时消除了对手动字幕的需求,为 TBPS 系统的可扩展和实际部署铺平了道路 ...
思想链(CoT)提示显着增强了大型语言模型的数学推理能力。我们发现现有的微调数据集经常遇到“答案正确但推理错误”的问题,其中正确的最终答案来自于幻觉、冗余或逻辑上无效的中间步骤。本文提出了EntroCoT,一个用于自动识别和细化低质量CoT监督痕迹的统一框架。 EntroCoT 首先提出一种基于熵的机制,在不确定的时刻将推理轨迹分割为多个步骤,然后引入基于蒙特卡洛 rollout 的机制来评估每个步骤的边际贡献。通过准确过滤欺骗性推理样本,EntroCoT 构建了一个高质量的数据集,其中每个推理轨迹中的每个中间步骤都有助于最终答案。对数学基准的大量实验表明,对 EntroCoT 构建的子集进行微调始终优于全数据集监督的基准 ...
视觉语音识别 (VSR) 通过分析嘴唇运动来转录语音。最近,大型语言模型 (LLM) 已集成到 VSR 系统中,从而显着提高了性能。然而,LLM 的潜力尚未得到广泛研究,并且如何在 VSR 任务中有效利用 LLM 仍有待探索。本文系统地探讨了如何更好地利用 LLM 来完成 VSR 任务,并提供了三个关键贡献:(1)扩展测试:我们研究了 LLM 大小如何影响 VSR 性能,确认了 VSR 任务中的扩展规律。 (2)上下文感知解码:我们添加上下文文本来指导LLM解码,提高识别准确性。 (3)迭代完善:我们建议迭代完善LLM输出,逐步减少识别错误。大量实验表明,通过这些设计,可以充分发挥 LLM 的巨大潜力,从而显着提高 VSR 性能 ...
强化学习对于增强大型语言模型的推理能力至关重要,但当前的探索机制仍然与这些模型的实际学习方式根本不相符。熵奖励和外部语义比较器鼓励表面水平变化,但不能保证采样轨迹在形状优化的更新方向上有所不同。我们提出了 G2RL,一种梯度引导强化学习框架,其中探索不是由外部启发式驱动,而是由模型自身的一阶更新几何驱动。对于每个响应,G2RL 根据模型最后一层的敏感性构建序列级特征,该特征可以通过标准前向传递以可忽略不计的成本获得,并通过比较采样组内的这些特征来衡量每个轨迹将如何重塑策略。引入新颖梯度方向的轨迹接收有界乘法奖励缩放器,同时不强调冗余或偏离流形更新,产生与 PPO 风格稳定性和 KL 控制自然一致的自参考探索信号。在 Qwen3 基础 1.7B 和 4B 模型上的数学和一般推理基准测试(MATH500、AMC、AIME24、AIME25、GPQA、MMLUpro)中,G2RL 持续改进了基于熵的 GRPO 和外部嵌入方法的 pass@1、maj@16 和 pass@k。分析诱导几何,我们发现 G2RL 将探索扩展到更加正交且通常相反的梯度方向,同时保持语义连贯性,这表明策略自身的更新空间为指导大型语言模型强化学习的探索提供了更加忠实和有效的基础 ...