人类通常会在不损害旧技能的情况下获得新技能;然而,大型语言模型 (LLM) 的情况正好相反,例如从 LLaMA 到 CodeLLaMA。为此,我们提出了一种新的 LLM 后预训练方法,并扩展了 Transformer 块。我们仅使用新语料库来调整扩展块,高效且有效地提高模型的知识,而不会发生灾难性遗忘。在本文中,我们对代码和数学语料库进行了实验,产生了 LLaMA Pro-8.3B,这是一种从 LLaMA2-7B 初始化的多功能基础模型,在一般任务、编程和数学方面表现出色。 LLaMA Pro 及其指令跟踪对应产品 (LLaMA Pro-Instruct) 在各种基准测试中实现了先进的性能,展示了相对于 LLaMA 系列中现有开放模型的优越性,以及作为智能代理进行推理和解决各种任务的巨大潜力。我们的研究结果为整合自然语言和编程语言提供了宝贵的见解,为开发在各种环境中有效运行的高级语言代理奠定了坚实的基础 ...
图卷积网络(GCN)已成为协作过滤的最新技术。然而,其推荐效果的原因尚不清楚。现有的使 GCN 适应推荐的工作缺乏对 GCN 的彻底的消融分析,GCN 最初是为图分类任务设计的,并配备了许多神经网络操作。然而,我们凭经验发现 GCN 中最常见的两种设计——特征变换和非线性激活——对协同过滤的性能贡献不大。更糟糕的是,包含它们会增加训练难度并降低推荐性能。在这项工作中,我们的目标是简化 GCN 的设计,使其更加简洁且适合推荐。我们提出了一个名为 LightGCN 的新模型,仅包含 GCN 中最重要的组件——邻域聚合——用于协作过滤。具体来说,LightGCN 通过在用户-项目交互图上线性传播用户和项目嵌入来学习用户和项目嵌入,并使用所有层学习到的嵌入的加权和作为最终嵌入。这种简单、线性和简洁的模型更容易实现和训练,在完全相同的实验设置下,与神经图协同过滤(NGCF)(一种最先进的基于 GCN 的推荐模型)相比,表现出显着的改进(平均相对改进约 16.0%)。从分析和实证的角度对简单 LightGCN 的合理性进行了进一步的分析 ...
在互联网规模的视频上预训练视觉-语言-动作(VLA)策略很有吸引力,但当前的潜在动作目标经常学到错误的东西:它们仍然锚定于像素变化而不是与动作相关的状态转换,这使得它们容易受到外观偏差、令人讨厌的运动和信息泄漏的影响。我们引入了 VLA-JEPA,这是一种 JEPA 风格的预训练框架,它通过设计避开了这些陷阱。关键思想是无泄漏状态预测:目标编码器从未来帧中产生潜在表示,而学生路径只能看到当前的观察结果——未来信息仅用作监督目标,从不用作输入。通过在潜在空间而不是像素空间中进行预测,VLA-JEPA 学习了对相机运动和不相关背景变化具有鲁棒性的动态抽象。这产生了一个简单的两阶段配方——JEPA 预训练,然后是动作头微调——没有先前潜在动作管道的多阶段复杂性。对 LIBERO、LIBERO-Plus、SimplerEnv 和现实世界操作任务的实验表明,VLA-JEPA 在泛化性和鲁棒性方面比现有方法取得了一致的进步 ...
语音语言模型(例如 GPT-4o 语音模式和 Gemini Live)的最新进展已经展示了有前途的语音生成功能。然而,合成音频的美学自然度仍然落后于人类语音。提高生成质量需要可靠的语音自然度评估器。然而,现有的自然度评估器通常将原始音频回归为标量分数,提供评估的可解释性有限,而且无法泛化到跨不同分类法的语音。受生成奖励模型最新进展的启发,我们提出了生成语音奖励模型(GSRM),这是一种专为语音量身定制的以推理为中心的奖励模型。 GSRM 经过训练,可将语音自然度评估分解为可解释的声学特征提取阶段,然后进行基于特征的思维链推理,从而实现可解释的判断。为了实现这一目标,我们策划了一个大规模的人类反馈数据集,其中包含 31,000 个专家评分和现实世界用户辅助语音交互的域外基准。实验表明,GSRM 大大优于现有的语音自然度预测器,实现了接近人类评估者间一致性的自然度分数预测的模型与人类相关性。我们进一步展示了 GSRM 如何通过充当在线 RLHF 的有效验证者来提高语音 LLM 生成的自然度 ...
我们引入 k 平面,这是一种用于任意维度辐射场的白盒模型。我们的模型使用 d 选择 2 个平面来表示 d 维场景,提供从静态 (d=3) 到动态 (d=4) 场景的无缝方式。这种平面分解使得添加特定于维度的先验变得容易,例如时间平滑性和多分辨率空间结构,并引起场景的静态和动态组件的自然分解。我们使用具有学习颜色基础的线性特征解码器,其性能与非线性黑盒 MLP 解码器相似。在一系列合成和真实、静态和动态、固定和变化的外观场景中,k 平面以低内存使用量产生具有竞争力且通常最先进的重建保真度,在完整 4D 网格上实现 1000 倍压缩,并通过纯 PyTorch 实现进行快速优化。有关视频结果和代码,请参阅此 https URL ...
扩散模型彻底改变了高保真图像和视频合成,但其计算需求对于实时应用来说仍然令人望而却步。这些模型面临两个基本挑战:严格的时间依赖性阻碍并行化,以及每个去噪步骤所需的计算密集型前向传递。受到大型语言模型中推测性解码的启发,我们提出了 SpeCa,这是一种新颖的“预测然后验证”加速框架,可以有效解决这两个限制。 SpeCa 的核心创新在于将推测采样引入扩散模型,根据完全计算的参考时间步长预测后续时间步长的中间特征。我们的方法实现了一种无参数验证机制,可以有效地评估预测可靠性,从而能够实时决策接受或拒绝每个预测,同时产生的计算开销可以忽略不计。此外,SpeCa 引入了样本自适应计算分配,可根据生成复杂性动态调整资源,为更简单的样本分配减少的计算,同时保留复杂实例的密集处理。实验表明,FLUX 上的加速为 6.34 倍,质量下降最小(下降 5.5%);DiT 上的加速为 7.3 倍,同时保持生成保真度;HunyuanVideo 在 6.1 倍加速下的 VBench 得分为 79.84%。该验证机制产生的开销极小(全部推理成本的 1.67%-3.5%),为高效扩散模型推理建立了新范例,同时即使在激进的加速比下也能保持生成质量。我们的代码已经发布在Github:\textbf{这个https URL} ...
OpenAI o1 和 DeepSeek-R1 等大型推理模型(LRM)在使用长推理链的推理任务中表现出了出色的性能。然而,这也导致了计算成本的显着增加和冗长输出的产生,这种现象被称为过度思考。 GRPO/DAPO 等强化学习 (RL) 算法往往会加剧过度思考的倾向。在本文中,我们提出了 BFS-PO,这是一种 RL 算法,它使用最佳优先搜索探索策略来缓解这个问题。具体来说,BFS-PO 使用基于最大熵节点的回溯机制来寻找最短的正确答案。通过在训练期间生成逐渐较短的响应,BFS-PO 学会生成简洁的推理链。使用不同的基准和基础 LRM,我们表明 BFS-PO 可以同时提高 LRM 准确性并缩短其答案 ...
计算机视觉和机器学习技术的进步导致 RGB 相机、LiDAR 和雷达的 2D 和 3D 人体姿势估计取得了重大发展。然而,根据图像进行人体姿态估计会受到遮挡和光照的不利影响,这在许多感兴趣的场景中都很常见。另一方面,雷达和激光雷达技术需要昂贵且耗电的专用硬件。此外,将这些传感器放置在非公共区域会引起严重的隐私问题。为了解决这些限制,最近的研究探索了使用 WiFi 天线(一维传感器)进行身体分割和关键点身体检测。本文进一步扩展了 WiFi 信号与计算机视觉中常用的深度学习架构的结合,以估计密集的人体姿势对应关系。我们开发了一种深度神经网络,可将 WiFi 信号的相位和幅度映射到 24 个人体区域内的 UV 坐标。研究结果表明,我们的模型可以利用 WiFi 信号作为唯一输入来估计多个主体的密集姿势,其性能与基于图像的方法相当。这为人类感知的低成本、可广泛访问且保护隐私的算法铺平了道路 ...
我们提出了保留聚类和相关性(PCC),这是一种新颖的降维(DR)方法,一种新颖的降维(DR)方法,可以实现最先进的全局结构(GS)保存,同时保持竞争性的局部结构(LS)保存。它优化了两个目标:GS 保留目标,保留高维距离和低维距离之间的 Pearson 和 Spearman 相关性的近似值;LS 保留目标,确保高维数据中的簇在低维数据中是可分离的。 PCC 拥有最先进的 GS 保存能力,同时具有具有竞争力的 LS 保存能力。此外,我们表明相关目标可以与 UMAP 结合,以显着提高其 GS 保留,同时将 LS 的退化降至最低。我们根据现有方法对 PCC 进行定量基准测试,并证明其在医学成像中的实用性,并表明 PCC 是一种具有竞争力的 DR 技术,在我们的基准测试中表现出卓越的 GS 保留 ...
尽管具有广泛的适用性,基于 Transformer 的模型在 System~2 推理方面仍然存在不足,缺乏人类与人工智能对齐所需的通用性和适应性。我们研究了 ARC-AGI 任务的弱点,揭示了组合概括和新颖规则适应方面的差距,并认为缩小这些差距需要彻底改革推理管道及其评估。我们提出了三个研究轴:(1)用于组合通用性的符号表示管道,(2)用于适应性的交互式反馈驱动的推理循环,以及(3)平衡这两种质量的测试时任务增强。最后,我们演示了如何调整 ARC-AGI 的评估套件来跟踪符号通用性、反馈驱动的适应性和任务级稳健性方面的进展,从而指导未来在稳健的人类与人工智能协调方面的工作 ...