当今的AI系统具有人为设计的固定架构,无法自主,不断地改善自己。 AI的进步本身可以自动化。如果安全完成,那将加速AI的开发,并使我们能够更快地获得其收益 ...
电影配音是根据视频场景的脚本合成语音的任务,需要准确的口型同步、忠实的音色传递以及对角色身份和情感的正确建模。然而,现有方法面临两个主要局限性:(1)高质量的多模态配音数据集规模有限、字错误率高、标注稀疏、依赖昂贵的手动标记、仅限于独白场景,所有这些都阻碍了有效的模型训练; (2)现有的配音模型仅依靠唇部区域来学习视听对齐,这限制了它们对复杂的真人电影场景的适用性,并且在唇形同步、语音质量和情感表达方面表现不佳。为了解决这些问题,我们提出了 FunCineForge,它包括用于大规模配音数据集的端到端制作管道和专为不同电影场景设计的基于 MLLM 的配音模型。使用该管道,我们构建了第一个具有丰富注释的中文电视配音数据集,并证明了这些数据的高质量。独白、旁白、对话和多说话者场景的实验表明,我们的配音模型在音频质量、口型同步、音色传输和指令跟随方面始终优于 SOTA 方法。代码和演示可在此 https URL 获取 ...
目前的人形全身操纵方法主要依赖于远程操作或视觉模拟到真实的强化学习,但受到硬件物流和复杂奖励工程的阻碍。因此,所展示的自主技能仍然有限,并且通常仅限于受控环境。在本文中,我们提出了人形操纵接口(HuMI),这是一个可移植且高效的框架,用于学习跨各种环境的各种全身操纵任务。 HuMI 通过使用便携式硬件捕获丰富的全身运动,实现无机器人的数据收集。这些数据驱动分层学习管道,将人类动作转化为灵巧且可行的人形技能。针对五种全身任务(包括跪、蹲、抛掷、行走和双手操作)的广泛实验表明,与远程操作相比,HuMI 的数据收集效率提高了 3 倍,并且在看不见的环境中实现了 70% 的成功率 ...
模型能否学会摆脱自身的学习高原?用于微调大型推理模型的强化学习方法在初始成功率较低的数据集上停滞不前,因此训练信号很少。我们研究一个基本问题:预训练的 LLM 能否利用潜在知识为它无法解决的问题生成自动化课程?为了探索这一点,我们设计了 SOAR:一个自我改进框架,旨在通过元强化学习呈现这些教学信号。该模型的教师副本为学生副本提出综合问题,并因其对一小部分难题的改进而获得奖励。至关重要的是,SOAR 将课程建立在衡量学生进步的基础上,而不是内在的代理奖励。我们对数学基准最难子集(0/128 成功)的研究揭示了三个核心发现。首先,我们证明可以实现双层元强化学习,通过增强预训练模型的潜在能力来生成有用的踏脚石,从而解锁稀疏二元奖励下的学习。其次,扎根奖励优于之前 LLM 自我博弈中使用的内在奖励方案,可靠地避免了它们通常表现出的不稳定性和多样性崩溃模式。第三,分析生成的问题表明,结构质量和适定性对于学习进度比解决方案的正确性更重要。我们的结果表明,产生有用垫脚石的能力并不需要预先存在的能力来实际解决难题,从而为摆脱推理高原铺平了一条原则性道路,而无需额外的精选数据 ...
本文提出了 MOBA 游戏的动态难度调整作为提高玩家娱乐性的一种方式。尽管 MOBA 是目前全球最受欢迎的游戏类型之一,但它被认为是一种自主性较低、挑战较多、因此带来更多挫败感的游戏。由于这些特征,使用动态执行难度平衡的机制似乎是一个有趣的替代方案,可以最大限度地减少和/或避免玩家经历此类挫折。从这个意义上说,本文提出了一种MOBA游戏的动态难度调整机制。主要思想是创建一个计算机控制的对手,动态适应玩家的表现,试图为玩家提供更好的游戏体验。这是通过使用基于某些游戏功能的指标评估玩家的表现并相应地切换对手人工智能行为的难度来完成的。进行了定量和定性实验,结果表明该系统能够动态适应对手的技能。尽管如此,对用户的定性实验表明,玩家的专业知识对难度级别的感知和动态适应有更大的影响 ...
时间序列基础模型(TSFM)通过大规模预训练实现了强大的单变量预测,但有效地将这种成功扩展到多变量预测仍然具有挑战性。为了解决这个问题,我们提出了 DualWeaver,这是一种新颖的框架,它通过使用一对可学习的、结构对称的代理序列来适应单变量 TSFM(Uni-TSFM)进行多变量预测。这些代理由捕获跨变量依赖性的共享辅助特征融合模块生成,通过预测目标映射到 TSFM 兼容序列。对称结构可以直接从代理中无参数地重建最终预测,无需额外的参数解码。进一步引入了基于理论的正则化项,以增强针对适应崩溃的鲁棒性。对不同现实世界数据集的大量实验表明,DualWeaver 在准确性和稳定性方面均优于最先进的多元预测器。我们在此 https URL 发布代码 ...
准确预测交通动态对于城市交通和基础设施规划至关重要。尽管最近的工作在深度学习模型方面取得了出色的性能,但这些方法通常需要特定于数据集的训练、架构设计和超参数调整。本文通过对最先进模型 Chronos-2 的零样本性能进行基准测试,评估通用时间序列基础模型是否可以作为交通任务的预测器,该模型涵盖十个真实世界数据集,涵盖高速公路交通量和流量、城市交通速度、自行车共享需求和电动汽车充电站数据。在一致的评估协议下,我们发现,即使没有任何特定于任务的微调,Chronos-2 也能在大多数数据集上提供最先进的或有竞争力的准确性,经常优于经典统计基线和专门的深度学习架构,特别是在较长的时间范围内。除了点预测之外,我们还使用预测区间覆盖范围和清晰度来评估其本机概率输出,证明 Chronos-2 还可以提供有用的不确定性量化,而无需特定于数据集的训练。总的来说,本研究支持采用时间序列基础模型作为交通预测研究的关键基线 ...
我们引入了 Timer-S1,这是一个强大的专家混合 (MoE) 时间序列基础模型,总参数为 8.3B,每个标记有 0.75B 个激活参数,上下文长度为 11.5K。为了克服现有预训练时间序列基础模型中的可扩展性瓶颈,我们在模型架构、数据集和训练管道三个维度上进行串行扩展。 Timer-S1 集成了稀疏 TimeMoE 模块和通用 TimeSTP 模块,用于串行 Token 预测 (STP),这是一种遵循预测串行性质的通用训练目标。所提出的范例引入了串行计算来改进长期预测,同时避免标准下一个 Token 预测中昂贵的滚动式推理和明显的错误累积。为了追求高质量和公正的训练数据集,我们策划了 TimeBench(一个拥有一万亿个时间点的语料库),并应用细致的数据增强来减轻预测偏差。我们进一步开创了训练后阶段,包括持续的预训练和长上下文扩展,以提高短期和长期上下文的表现。在大规模 GIFT-Eval 排行榜上进行评估,Timer-S1 实现了最先进的预测性能,作为预训练模型获得了最佳的 MASE 和 CRPS 分数。 Timer-S1将被发布以方便进一步的研究 ...
扩展推理时间计算已成为 LLM 性能的重要驱动因素,使推理效率与模型质量一起成为模型设计的核心焦点。虽然当前基于 Transformer 的模型提供了强大的模型质量,但其二次计算和线性内存使得推理成本高昂。这刺激了次二次模型的发展,减少了线性计算和恒定的内存需求。然而,许多最近的线性模型为了算法效率而牺牲了模型质量和能力,在状态跟踪等任务上失败了。此外,它们理论上的线性推理在实践中仍然是硬件效率低下的。在推理优先视角的指导下,我们引入了受线性模型状态空间模型(SSM)观点启发的三个核心方法改进。我们结合了:(1)从 SSM 离散化导出的更具表现力的递归,(2)可实现更丰富状态跟踪的复值状态更新规则,以及(3)多输入多输出(MIMO)公式,可在不增加解码延迟的情况下获得更好的模型性能。结合架构的改进,我们的 Mamba-3 模型在检索、状态跟踪和下游语言建模任务方面取得了显着的进步。在 1.5B 规模上,与次佳模型(Gated DeltaNet)相比,Mamba-3 将平均下游准确度提高了 0.6 个百分点,Mamba-3 的 MIMO 变体进一步将准确度再提高了 1.2 个百分点,总增益提高了 1.8 个百分点。在状态大小实验中,Mamba-3 实现了与 Mamba-2 相当的困惑度,尽管使用了其前身状态大小的一半。我们的评估证明了 Mamba-3 推进性能效率帕累托前沿的能力 ...
随着多模式大语言模型(MLLM)的快速发展,基于MLLM的图像质量评估(IQA)方法在语言质量描述中表现出了有希望的表现。但是,当前方法仍然无法准确评分图像质量。在这项工作中,我们旨在利用MLLM来回归准确的质量分数 ...