多场景广告排名旨在利用多个领域或渠道的数据来训练统一的排名模型,以提高各个场景的效果。尽管该任务的研究取得了重要进展,但仍然缺乏跨场景关系的考虑,从而导致学习能力的限制和相互关系建模的困难。在本文中,我们提出了一种用于多场景广告排名的混合对比约束方法(HC^2)。为了增强数据相互关系的建模,我们精心设计了一种混合对比学习方法来捕获多个场景之间的共性和差异。我们方法的核心包括两个精心设计的对比损失,即广义对比损失和个体对比损失,其目的分别是捕获公共知识和特定于场景的知识。为了使对比学习适应复杂的多场景设置,我们提出了一系列重要的改进。对于广义对比损失,我们通过扩展对比样本(标签感知和扩散噪声增强对比样本)和重新加权对比样本(相互相似性加权)来增强对比学习。对于个体对比损失,我们使用基于丢失的增强和{跨场景编码}策略分别生成有意义的正和负对比样本。通过与许多竞争基线进行比较,离线评估和在线测试的大量实验证明了所提出的 HC$^2$ 的有效性 ...
最近的文本到视频扩散模型可以生成引人注目的视频序列,但它们仍然保持沉默——缺少音频提供的语义、情感和氛围线索。我们引入了 LTX-2,这是一种开源基础模型,能够以统一的方式生成高质量、时间同步的视听内容。 LTX-2 由具有 14B 参数视频流和 5B 参数音频流的非对称双流 Transformer 组成,通过具有时间位置嵌入的双向音频-视频交叉注意层和用于共享时间步调节的跨模态 AdaLN 进行耦合。该架构可以实现统一视听模型的高效训练和推理,同时为视频生成分配比音频生成更多的容量。我们采用多语言文本编码器来实现更广泛的及时理解,并引入模态感知的无分类器指导(模态-CFG)机制来改进视听对齐和可控性。除了生成语音之外,LTX-2 还可以生成丰富、连贯的音轨,遵循每个场景的人物、环境、风格和情感,并配有自然背景和拟音元素。在我们的评估中,该模型实现了最先进的视听质量并迅速遵守开源系统,同时以专有模型的一小部分计算成本和推理时间提供与专有模型相当的结果。所有模型权重和代码均公开发布 ...
基于扩散的生成模型在语音增强 (SE) 的感知质量方面取得了最先进的性能。然而,它们的迭代性质需要大量的神经功能评估(NFE),这对实时应用提出了挑战。相反,流匹配通过学习直接向量场提供了更有效的替代方案,使用确定性常微分方程(ODE)求解器只需几个步骤即可实现高质量合成。因此,我们引入了语音增强的快捷流匹配(SFMSE),这是一种训练单一、步骤不变模型的新颖方法。通过在单阶段训练过程中调节目标时间步上的速度场,SFMSE 可以执行单步、少步或多步去噪,而无需任何架构更改或微调。我们的结果表明,单步 SFMSE 推理在消费级 GPU 上实现了 0.013 的实时因子 (RTF),同时提供与需要 60 个 NFE 的强扩散基线相当的感知质量。这项工作还对随机性在训练和推理中的作用进行了实证分析,弥合了高质量生成 SE 和低延迟约束之间的差距 ...
大语言模型(LLM)的推理能力可以通过强化学习(RL)来释放(OpenAI,2024;DeepSeek-AI 等人,2025a;Zeng 等人,2025)。 LLM 现有强化学习尝试的成功通常依赖于数千甚至更多的高质量样本。在本文中,我们通过证明一次性学习的显着有效性,挑战了 LLM 强化学习数据要求的基本假设。具体来说,我们引入了博学学习,这是一种设计能够引发多学科影响的训练样本的框架。我们提出了三个关键发现:(1) 一个经过战略选择的单一数学推理样本可以在多个领域产生显着的性能提升,包括物理、化学和生物学等领域的强化学习; (2) 推理中突出的数学技能表明了最佳博学者样本的特征; (3) 集成多学科元素的工程合成样本优于自然发生的单个样本的训练。我们的方法在各种推理基准上实现了比使用更大数据集进行训练更优越的性能,这表明样本质量和设计(而不是数量)可能是增强语言模型推理能力的关键。我们的结果表明,一种称为样本工程的转变是朝着训练样本的精确工程转变,而不是简单地增加数据量 ...
大型语言模型 (LLM) 从被动文本生成器到自主的目标驱动系统的演变代表了人工智能的根本转变。本章探讨了代理人工智能系统的出现,该系统集成了规划、记忆、工具使用和迭代推理,可在复杂环境中自主运行。我们追踪从统计模型到基于 Transformer 的系统的架构进展,识别支持代理行为的功能:远程推理、上下文感知和自适应决策。本章提供了三个贡献:(1)综合了 LLM 的能力如何通过推理-行动-反思循环向代理延伸; (2) 一个描述核心组件感知、记忆、规划和工具执行的综合框架,将 LLM 与自主行为联系起来; (3) 对安全性、一致性、可靠性和可持续性方面的应用和持续挑战进行严格评估。与现有的调查不同,我们专注于从语言理解到自主行动的架构过渡,强调部署之前必须解决的技术差距。我们确定关键的研究重点,包括可验证的规划、可扩展的多代理协调、持久内存架构和治理框架。负责任的进步需要在技术稳健性、可解释性和道德保障方面同时取得进展,以实现潜力,同时减轻失调和意外后果的风险 ...
为了提高互联网协议的安全性,我们寻求更快的半自动方法来发现 DNS、BGP 等协议中的新漏洞。为此,我们引入了 LLM 辅助协议攻击发现 (LAPRAD) 方法,使具有一定 DNS 知识的安全研究人员能够有效地发现原本难以检测的漏洞。 LAPRAD 遵循三个阶段的过程。首先,我们咨询了一位 LLM (GPT-o1),该硕士接受过广泛的 DNS 相关来源和之前的 DDoS 攻击语料库的培训,以识别潜在的漏洞。在第二阶段,不同的LLM使用通过LangChain(DNS区域文件生成)实现的ReACT方法自动构建相应的攻击配置。最后,在第三阶段,我们验证攻击的功能和有效性。使用 LAPRAD,我们发现了针对 DNS 协议的三种新的 DDoS 攻击,并重新发现了最近报告的两种未包含在 LLM 培训数据中的攻击。第一个新攻击采用诱饵和切换技术来诱骗解析器缓存大型、伪造的 DNSSEC RRSIG,将其服务能力降低至 6%。第二个利用具有多个密钥的大型 DNSSEC 加密算法 (RSA-4096),从而绕过最近实施的默认 RRSet 限制。第三种利用任何类型的响应来产生类似的效果。这些缓存刷新 DDoS 攻击的变体(称为 SigCacheFlush)会规避现有补丁,严重降低解析器查询能力,并影响主要 DNS 解析器实现的最新版本 ...
本文提出了一种新的方法,以评估网络包装种子生成中的基于抹布的代理大语模型(LLM)体系结构的效率,以实现网络协议模糊。通过促进链(COT)提示技术增强,提出的方法着重于改进种子结构质量,以通过对协议状态空间进行广泛的探索来指导协议模糊框架。我们的方法将抹布和文本嵌入在两个阶段中 ...
视觉和语言导航(VLN)旨在开发能够在现实环境中导航的代理。虽然最近的跨模式训练方法显着提高了室内和室外场景的导航性能,但由于数据集有限以及整合视觉和地理信息的困难,现实世界城市的空中导航仍未得到充分探索。为了填补这一空白,我们引入了 CityNav,这是第一个用于航空 VLN 的大型真实世界数据集。我们的数据集由 32,637 个人类演示轨迹组成,每个轨迹都配有自然语言描述,覆盖两个真实城市的 4.65 km$^2$:剑桥和伯明翰。与由合成场景(例如 AerialVLN)组成的现有数据集相比,我们的数据集提出了独特的挑战,因为智能体必须解释现实世界地标和导航目的地之间的空间关系,这使得 CityNav 成为推进空中 VLN 的重要基准。此外,作为解决这一挑战的第一步,我们提供了一种创建地理语义地图的方法,该地图可以在导航过程中用作辅助模态输入。在我们的实验中,我们比较了三种代表性航空 VLN 代理(Seq2seq、CMA 和 AerialVLN 模型)的性能,并证明语义地图表示显着提高了它们的导航性能 ...
训练有素的机器学习模型利用大量开源软件数据,现已成为自动化许多软件工程任务的一种有趣的方法。一些 SE 任务都采用了这种方法,在过去几年中,通过更好的模型和训练方法,性能逐渐提高。更多、更多样化、干净、有标签的数据更适合训练;但构建高质量的数据集既耗时又具有挑战性。增加干净、标记数据的数量和多样性的方法通常具有广泛的适用性。对于某些语言(例如 Ruby),标记数据不太丰富;在其他(例如 JavaScript)中,可用数据可能更集中于某些应用程序领域,因此多样性较低。作为解决此类数据瓶颈的一种方法,我们提供的证据表明,用不同语言(执行相同功能)的人类编写的代码非常相似,特别是保留了标识符命名模式;我们进一步提供证据表明标识符是软件工程任务训练数据的一个非常重要的元素。我们利用这种相当偶然的现象来寻找证据,证明可用的多语言训练数据(跨不同语言)可用于增强性能。我们针对 3 个不同的任务进行研究:代码摘要、代码检索和函数命名。我们注意到这种数据增强方法广泛兼容不同的任务、语言和机器学习模型 ...
大型语言模型 (LLM) 的持续预训练 (CPT) 已被广泛用于扩展模型对特定下游领域(例如数学和代码)的基本理解。对于特定领域 LLM 的CPT,一个重要问题是如何选择通用语料库(例如Dolma、Slim-pajama)和下游领域语料库之间的最佳混合比例。现有方法通常采用人工对一组混合比例进行网格搜索的方式进行繁琐的工作,这需要较高的GPU训练消耗成本。此外,我们不能保证所选比例对于特定领域来说是最佳的。为了解决现有方法的局限性,受到性能预测的缩放定律的启发,我们建议研究特定领域持续预训练的缩放定律(D-CPT 定律),以确定不同规模的 LLM 在可接受的培训成本下的最佳混合比例。具体来说,通过拟合 D-CPT 定律,我们可以在有限的实验中使用小规模训练成本轻松预测任意混合比例、模型大小和数据集大小的一般和下游性能。此外,我们还在跨域设置上扩展了标准D-CPT法则,并提出了跨域D-CPT法则来预测目标域的D-CPT法则,其中目标域需要非常小的训练成本(大约是正常训练成本的1%)。六个下游领域的综合实验结果证明了我们提出的 D-CPT 法则和跨域 D-CPT 法则的有效性和普适性 ...