实现精确且可控的情感表达对于在文本转语音 (TTS) 合成中生成自然且适合上下文的语音至关重要。然而,许多情感感知 TTS 系统,包括基于大语言模型 (LLM) 的设计,依赖于扩展固定情感嵌入或外部指导,限制了它们对特定情感潜在特征进行建模的能力。为了解决这一差距,我们提出了 EmoShift,这是一个包含 EmoSteer 层的轻量级激活引导框架,它学习输出嵌入空间中每个目标情感的引导向量,以捕获其潜在偏移并在话语和类别中保持稳定、适当的表达。仅 10M 个可训练参数,不到 1/30 的完全微调,EmoShift 在客观和主观评估方面优于零样本和完全微调的基线,在增强情感表达的同时保持自然度和说话者相似性。进一步的分析证实了所提出的 EmoSteer 层的有效性,并揭示了其在语音合成中可控情绪强度的潜力 ...
随着 LLM 部署扩展到更多硬件,系统中出现单一故障的可能性显着增加,云运营商必须考虑强有力的对策来处理这些不可避免的故障。常见的恢复方法是简单地重新启动 LLM 服务实例;然而,这在模型即服务 (MaaS) 推理设置中成本高昂,其中重新加载模型权重和重新编译计算图可能会对传入请求造成严重延迟。我们提出 ReviveMoE,一种在大规模 LLM 部署中快速故障恢复的方法,无需重新启动服务实例。 ReviveMoE 旨在支持传统的 LLM 架构(将 MoE 和注意力配置在同一硬件上)和分解架构(将 MoE 与注意力分开)。 ReviveMoE 集成到华为云的 MaaS 中,构建在华为 xDeepServe 服务平台和 XCCL 通信库之上 ...
生成式推荐 (GR) 通过将下一项预测作为 Token 级生成而不是基于分数的排名,与生成式人工智能的进步保持一致。大多数GR方法采用两阶段管道:(i)\textit{item tokenization},它将每个项目映射到一系列离散的、分层组织的标记; (ii) \textit{自回归生成},它根据用户交互历史记录的标记来预测下一个项目的标记。尽管分层标记化在项目上引入了前缀树 (trie),但使用传统 Transformer 的标准自回归建模通常将项目标记展平为线性流并忽略底层拓扑。为了解决这个问题,我们提出了 TrieRec,一种特里感知生成推荐方法,通过两种位置编码增强 Transformer 的结构归纳偏差。首先,\textit{trie 感知的绝对位置编码}将标记的(节点的)本地结构上下文(例如深度、祖先和后代)聚合到标记表示中。其次,\textit{拓扑感知相对位置编码}将成对结构关系注入自注意力中,以捕获拓扑引起的语义相关性。 TrieRec 还与模型无关、高效且无超参数。在我们的实验中,我们在三个代表性的 GR 主干中实现了 TrieRec,在四个真实世界数据集上平均实现了 8.83% 的显着改进 ...
使用大语言模型 (LLM) 的生成推荐将预测重新构建为序列生成,但现有的基于 LLM 的推荐器在利用在移动和本地服务场景中至关重要的地理信号方面仍然有限。在这里,我们提出了空间推理(ROS),这是一个利用地理作为推理过程中重要决策变量的框架。 ROS 引入了分层空间语义 ID (SID),它将从粗到细的局部性和 POI 语义离散化为组合标记,并赋予 LLM 一个三阶段的移动性思想链 (CoT) 范式,该范式可以对用户个性进行建模,构建意图一致的候选空间,并执行局部性通知修剪。我们通过空间引导强化学习(RL)进一步使模型与现实世界地理保持一致。对三个广泛使用的基于位置的社交网络 (LBSN) 数据集的实验表明,尽管使用了较小的主干模型,但 ROS 的命中率相对于最强的基于 LLM 的基线提高了 10% 以上,并改善了跨城市传输 ...
学习敏捷技能是机器人技术的主要挑战之一。为此,强化学习方法取得了令人瞩目的成果。这些方法需要奖励函数或专家方面的明确任务信息,可以在模拟中查询这些信息以提供目标控制输出,这限制了它们的适用性。在这项工作中,我们提出了一种生成对抗方法,用于从部分和可能物理上不兼容的演示中推断奖励函数,以在不易获得参考或专家演示的情况下成功获得技能。此外,我们表明,通过使用 Wasserstein GAN 公式以及以粗略和部分信息作为输入的演示的转换,我们能够提取稳健且能够模仿演示行为的策略。最后,所获得的后空翻等技能在名为 Solo 8 的敏捷四足机器人上进行了测试,并忠实地复制了手持式人类演示 ...
这篇论文基于 Maurice Heins 未发表的手稿,回答了 Valiron 提出的关于复平面中单位圆盘抛物线自映射动力学的问题,大大简化了以前用于回答同一问题的论点。引入的主要新工具是迭代序列的左拉直概念,可以有效地用于研究抛物线映射的双曲步长 ...
这项综合调查研究了自动驾驶系统中基于知识的方法的集成,特别关注轨迹预测和规划。我们广泛分析了将领域知识、交通规则和常识推理融入自动驾驶系统的各种方法。该调查根据知识表示和集成方法对方法进行分类和分析,范围从纯符号到混合神经符号架构。我们研究了逻辑编程、知识表示的基础模型、强化学习框架以及其他融合领域知识的新兴技术的最新发展。这项工作系统地回顾了最新的方法,确定了知识增强型自动驾驶系统的主要挑战、机遇和未来研究方向。我们的分析揭示了该领域的新兴趋势,包括可解释人工智能的重要性日益增加、形式验证在安全关键系统中的作用,以及将传统知识表示与现代机器学习技术相结合的混合方法的潜力 ...
在这项工作中,我们解决了现有条件扩散模型的两个局限性:由于迭代去噪过程而导致推理速度慢,以及依赖配对数据进行模型微调。为了解决这些问题,我们引入了一种通过对抗性学习目标使单步扩散模型适应新任务和领域的通用方法。具体来说,我们将普通潜在扩散模型的各个模块整合到具有小可训练权重的单个端到端生成器网络中,增强其保留输入图像结构的能力,同时减少过度拟合。我们证明,对于未配对的设置,我们的模型 CycleGAN-Turbo 在各种场景转换任务(例如昼夜转换以及添加/删除雾、雪和雨等天气效果)方面优于现有的基于 GAN 和基于扩散的方法。我们将我们的方法扩展到配对设置,其中我们的模型 pix2pix-Turbo 与 Sketch2Photo 和 Edge2Image 的 Control-Net 等最近的作品相当,但具有单步推理。这项工作表明,单步扩散模型可以作为一系列 GAN 学习目标的强大支柱。我们的代码和模型可从此 https URL 获取 ...
大规模基础模型的迅速崛起重塑了图像分割的格局,Segment Anything 等模型在不同的视觉任务中实现了前所未有的多功能性。然而,前几代技术(包括 SAM 及其后继者)仍然在应对细粒度、低级别的分割挑战,例如伪装对象检测、医学图像分割、细胞图像分割和阴影检测。为了解决这些限制,我们最初于 2023 年提出了 SAM-Adapter,展示了在这些困难场景中取得的巨大成果。随着 Segment Anything 3 (SAM3) 的出现——一种更高效、性能更高的演进,具有重新设计的架构和改进的训练管道——我们重新审视这些长期存在的挑战。在这项工作中,我们提出了 SAM3-Adapter,这是第一个为 SAM3 量身定制的适配器框架,可释放其完整的分段功能。 SAM3-Adapter 不仅减少了计算开销,而且始终超越基于 SAM 和 SAM2 的解决方案,在多个下游任务中建立了新的最先进的结果,包括医学成像、伪装(隐藏)对象分割和阴影检测。 SAM3-Adapter基于原有SAM-Adapter的模块化、可组合设计理念,提供了更强的通用性、更丰富的任务适应性,并显着提高了分割精度。大量实验证实,与之前所有基于 SAM 的适配相比,将 SAM3 与我们的适配器集成可产生卓越的准确性、稳健性和效率。我们希望 SAM3-Adapter 能够作为未来研究和实际分割应用的基础。代码、预训练模型和数据处理管道均可用 ...
我们推出 FireRedASR,这是一系列针对普通话的大规模自动语音识别 (ASR) 模型,旨在满足各种应用程序对卓越性能和最佳效率的不同要求。 FireRedASR 包括两个变体: FireRedASR-LLM:旨在实现最先进的 (SOTA) 性能并实现无缝的端到端语音交互。它采用利用大语言模型(LLM)功能的编码器-适配器-LLM框架。在公共普通话基准测试中,FireRedASR-LLM(8.3B 参数)的平均字符错误率 (CER) 为 3.05%,超过最新 SOTA 的 3.33%,相对 CER 降低 (CERR) 为 8.4%。它表现出了优于工业级基线的泛化能力,在视频、直播、智能助理等多源普通话 ASR 场景中实现了 24%-40% CERR。 FireRedASR-AED:旨在平衡高性能和计算效率,并在基于 LLM 的语音模型中充当有效的语音表示模块。它采用基于注意力的编码器-解码器(AED)架构。在公共普通话基准测试中,FireRedASR-AED(1.1B 参数)的平均 CER 为 3.18%,略差于 FireRedASR-LLM,但仍优于具有超过 12B 参数的最新 SOTA 模型。它提供更紧凑的尺寸,使其适合资源受限的应用程序。此外,这两个模型在中文方言和英语语音基准上都表现出有竞争力的结果,并且在歌词识别方面表现出色。为了推进语音处理的研究,我们在此 https URL 发布了我们的模型和推理代码 ...