虽然最近的语言模型偏好对齐算法已经显示出有希望的结果,但监督微调(SFT)对于实现成功收敛仍然至关重要。在本文中,我们研究了 SFT 在偏好对齐背景下的关键作用,强调对不受欢迎的生成方式进行较小的惩罚对于偏好对齐的 SFT 来说就足够了。在此基础上,我们引入了一种简单且创新的无参考模型的整体优势比偏好优化算法 ORPO,消除了额外的偏好调整阶段的必要性。我们从经验和理论上证明,优势比是在 SFT 期间对比从 125M 到 7B 的不同大小的受欢迎和不受欢迎风格的明智选择。具体来说,仅在 UltraFeedback 上使用 ORPO 微调 Phi-2 (2.7B)、Llama-2 (7B) 和 Mistral (7B) 就超越了具有超过 7B 和 13B 参数的最先进语言模型的性能:在 $\text{AlpacaEval}_{2.0}$ 上实现高达 12.20%(图 1),在 IFEval 上实现 66.19% (指令级松散,表 6),以及 MT-Bench 中的 7.32(图 12)。我们发布了 Mistral-ORPO-$\alpha$ (7B) 和 Mistral-ORPO-$\beta$ (7B) 的代码和模型检查点 ...

0 0 0 0 2025/12/08 arXiv:2403.07691v2 hongbo.zhu

Kahneman 和 Tversky 的 $\textit{前景理论}$ 告诉我们,人类以一种有偏见但定义明确的方式感知随机变量(1992);例如,人类是出了名的厌恶损失。我们表明,使 LLM 与人类反馈保持一致的目标隐含地包含了许多这些偏差——这些目标(例如,DPO)在交叉熵最小化上的成功可以部分归因于它们属于一系列损失函数,我们称之为$\textit{人类感知损失}$(HALO)。然而,这些方法赋予人类的效用函数仍然与前景理论文献中的不同。使用人类效用的 Kahneman-Tversky 模型,我们提出了一个 HALO,它直接最大化各代人的效用,而不是像当前方法那样最大化偏好的对数似然。我们将这种方法称为 KTO,它在 1B 到 30B 的尺度上匹配或超过了基于偏好的方法的性能,尽管它只从二进制信号中学习输出是否令人满意。更广泛地说,我们的工作表明,没有一种光环是普遍优越的。最佳损失取决于最适合给定设置的归纳偏差,这是一个经常被忽视的考虑因素 ...

0 0 0 0 2025/12/08 arXiv:2402.01306v4 hongbo.zhu

在本文中,我们提出了 ECAPA2,一种新颖的混合神经网络架构和训练策略,用于产生强大的说话人嵌入。大多数说话人验证模型都基于 1D 或 2D 卷积运算,通常分别表现为时延神经网络或 ResNet。混合模型相对未经探索,没有直观的解释什么构成了其架构选择的最佳实践。我们通过对当前说话人验证架构的分析来激发本文中提出的 ECAPA2 模型。此外,我们提出了一种训练策略,使说话者嵌入对于重叠语音和短话语长度更加鲁棒。所提出的 ECAPA2 架构和训练策略在 VoxCeleb1 测试集上获得了最先进的性能,且参数比当前模型少得多。最后,我们公开了一个预训练模型,以促进下游任务的研究 ...

0 0 0 0 2025/12/08 arXiv:2401.08342v1 hongbo.zhu

语言代理的长期目标是通过自己的经验进行学习和改进,最终在复杂的现实世界任务中超越人类。然而,在许多环境中,通过强化学习从经验数据中训练代理仍然很困难,这些环境要么缺乏可验证的奖励(例如网站),要么需要低效的长期部署(例如多回合工具的使用)。因此,当前大多数智能体都依赖于专家数据的监督微调,这难以扩展且泛化能力较差。这种限制源于专家演示的本质:它们仅捕获狭窄范围的场景,并将代理暴露在有限的环境多样性中。我们通过一种称为早期经验的中间范式来解决这一限制:由代理自己的行为生成的交互数据,其中产生的未来状态充当没有奖励信号的监督。在这个范式中,我们研究了使用此类数据的两种策略:(1)隐式世界建模,它使用收集的状态将政策建立在环境动态中; (2)自我反思,智能体从次优行为中学习,以改进推理和决策。我们评估八个不同的环境和多个模型系列。我们的方法不断提高有效性和域外泛化能力,强调早期经验的价值。此外,在具有可验证奖励的环境中,我们的结果提供了有希望的信号,即早期经验为后续强化学习提供了坚实的基础,将其定位为模仿学习和完全经验驱动的智能体之间的实用桥梁 ...

0 0 0 0 2025/12/08 arXiv:2510.08558v2 xhr1138743695

激光雷达点云的全景分割是室外场景理解的基础,其中自动驾驶是主要应用。虽然最先进的方法通常依赖于端到端的深度学习架构和大量的实例手动注释,但标记大规模点云数据集所需的大量成本和时间投入仍然是该领域的主要瓶颈。在这项工作中,我们证明了仅使用语义标签即可实现竞争性全景分割,无需任何训练或注释即可预测实例。我们的方法在包括 SemanticKITTI 和 nuScenes 在内的标准基准上实现了与当前最先进的监督方法相当的性能,并且作为直接实例头替换,优于 SemanticKITTI 上的每个公开可用的方法,同时在单线程 CPU 上实时运行并且不需要实例标签。我们的方法是完全可解释的,不需要学习或参数调整。代码可在此 https URL 获取 ...

0 0 0 0 2025/12/08 arXiv:2503.13203v3 zack_liu

端到端自动驾驶展示了强大的大规模数据规划能力,但由于常识有限,在复杂、罕见的场景中仍然举步维艰。相比之下,大型视觉语言模型(LVLM)在场景理解和推理方面表现出色。前进的道路在于融合两种方法的优势。以前使用 LVLM 来预测轨迹或控制信号的方法会产生次优结果,因为 LVLM 不太适合精确的数值预测。本文介绍了 Senna,一种将 LVLM (Senna-VLM) 与端到端模型 (Senna-E2E) 相结合的自动驾驶系统。 Senna 将高层规划与低层轨迹预测分离。 Senna-VLM 以自然语言生成规划决策,而 Senna-E2E 则预测精确的轨迹。 Senna-VLM 利用多图像编码方法和多视图提示来实现高效的场景理解。此外,我们引入了面向规划的 QA 以及三阶段培训策略,这在保留常识的同时增强了 Senna-VLM 的规划性能。对两个数据集的大量实验表明,Senna 实现了最先进的规划性能。值得注意的是,通过在大规模数据集 DriveX 上进行预训练并在 nuScenes 上进行微调,Senna 比未经预训练的模型显着降低了 27.12% 的平均规划误差和 33.33% 的碰撞率。我们相信Senna的跨场景通用性和可移植性对于实现完全自动驾驶至关重要。代码和模型将在此 https URL 发布 ...

0 0 0 0 2025/12/08 arXiv:2410.22313v1 zbs

了解大脑功能网络随时间的演化对于认知机制的分析和神经系统疾病的诊断具有重要意义。现有方法往往难以捕捉特定功能群落之间连接的时间演化特征。为此,本文提出了一种新的路径级轨迹建模框架(NeuroPathNet)来表征大脑功能分区之间连接路径的动态行为。基于医学支持的静态分区方案(例如 Yeo 和 Smith ICA),我们提取每对功能分区之间的连接强度的时间序列,并使用时间神经网络对其进行建模。我们在三个公共功能磁共振成像(fMRI)数据集上验证了模型性能,结果表明它在多个指标上优于现有主流方法。该研究可促进脑网络分析的动态图学习方法的发展,并为神经系统疾病的诊断提供可能的临床应用 ...

0 0 0 0 2025/12/08 arXiv:2510.24025v2 hnuhzw

由大型基础模型提供支持的图形用户界面 (GUI) 代理已成为自动化人机交互的变革性方法。这些代理通过 GUI 自主地与数字系统或软件应用程序交互,模拟人类行为,例如在不同平台上单击、打字和导航视觉元素。由于 GUI 代理日益增长的兴趣和根本重要性,我们提供了一项全面的调查,对其基准、评估指标、架构和培训方法进行了分类。我们提出了一个统一的框架来描述他们的感知、推理、计划和行动能力。此外,我们还确定了重要的开放挑战并讨论了未来的关键方向。最后,这项工作为从业者和研究人员提供了直观了解当前进展、技术、基准和有待解决的关键开放问题的基础 ...

0 0 0 0 2025/12/08 arXiv:2412.13501v3 chj1007

文本条件人体动作生成允许用户通过自然语言进行交互,已经变得越来越流行。现有方法通常基于单个输入句子生成短的、孤立的运动。然而,人类的动作是连续的,可以延续很长一段时间,承载着丰富的语义 ...

0 0 0 0 2025/12/08 arXiv:2410.05260v3 qinhui_cici

神经符号方法已证明可以有效增强大型语言模型(LLM)的推理能力。然而,现有的方法主要依靠语法映射自然语言来完成Python和SQL等形式语言。这些方法要求将推理任务转化为程序,迎合了计算机的执行思维,偏离了人类的推理习惯。为了扩大符号方法在现实世界中的适用性和适应性,我们从语言的角度提出了元推理。该方法使 LLM 能够将独立于推理的语义信息解构为通用符号表示,从而有效地捕获更广义的推理知识。我们对十多个数据集进行了广泛的实验,包括算术、符号和逻辑推理等传统推理任务,以及心理理论推理等更复杂的交互式推理任务。实验结果表明,与思想链技术相比,元推理显着提高了上下文推理的准确性、学习效率、域外泛化性和输出稳定性。代码和数据可在 \url{this https URL} 上公开获取 ...

0 0 0 0 2025/12/08 arXiv:2306.17820v4 shilaowua