流式多说话者语音翻译是一项任务,不仅涉及以低延迟生成准确、流畅的翻译,还涉及识别说话者何时发生变化以及说话者的性别。说话者变化信息可用于为零样本文本转语音系统创建音频提示,而性别可以帮助在传统文本转语音模型中选择说话者配置文件。我们建议通过将说话人嵌入合并到基于转换器的流式端到端语音翻译模型中来解决流式说话人变化检测和性别分类问题 ...

0 0 0 0 2025/11/05 arXiv:2502.02683v1 feixiang_peng

最近,预先训练的语言模型BERT(及其可靠优化的版本Roberta)吸引了自然语言理解(NLU)的广泛关注,并在各种NLU任务中实现了最先进的准确性,例如情感分类,自然语言推断,语义推断,语义上的文本相似性和问题答案。受Elman的线性探索工作的启发[8],我们通过将语言结构纳入预训练中,将BERT扩展到新的模型structbert。具体来说,我们将训练构造构成两个辅助任务,以充分利用单词和句子的顺序顺序,这些单词和句子分别在单词和句子级别上利用语言结构 ...

0 0 0 0 2025/09/30 arXiv:1908.04577v3 feixiang_peng

本文报告了第21届IWSLT会议组织的共同任务。共同的任务解决了口语翻译中的7个科学挑战:同时和离线翻译,自动字幕和配音,语音到语音翻译,方言和低资源语音翻译以及指示语言。共同的任务吸引了18个团队,他们的提交记录在26篇系统论文中 ...

0 0 0 0 2025/09/28 arXiv:2411.05088v1 feixiang_peng

建筑,预培训和微调的最新创新导致了大型自动退缩语言模型(例如Llama and Deepseek)的非凡学习和推理能力。相比之下,尽管许多下游NLP应用是基础,但像Bert和Roberta这样的编码者并未看到相同的进度。为了弥合这一差距,我们介绍了Neobert,Neobert是下一代编码器,通过整合建筑,现代数据和优化的预训练方法中的最新进步,重新定义了双向模型的功能 ...

0 0 0 0 2025/07/30 arXiv:2502.19587v2 feixiang_peng

同时解释(SI)代表了翻译行业中最艰巨的前沿之一,产品级自动系统长期困扰着棘手的挑战:次要转录和翻译质量,缺乏实时语音产生,多演讲者混乱,尤其是在长期的论述中翻译的语音膨胀。在这项研究中,我们介绍了Seed-LiveInterpret 2.0,这是一种端到端的SI模型,可提供具有语音克隆功能的高保真,超低延迟语音到语音的发电 ...

0 0 0 0 2025/07/29 arXiv:2507.17527v3 feixiang_peng

语言模型 (LM) 表现出令人印象深刻的性能和泛化能力。然而,LM 一直在与灾难性遗忘的持续挑战作斗争,这损害了他们持续学习(CL)的长期可持续性。现有的方法通常通过将旧的任务数据或任务方面的归纳偏差合并到 LM 中来解决这个问题 ...

0 0 0 0 2025/01/15 arXiv:2406.17245v2 feixiang_peng

在前馈神经网络 (FNN) 上提出的自归一化神经网络 (SNN) 在各种机器学习任务中优于常规 FNN 架构。特别是在计算机视觉领域,为 SNN 提出的激活函数缩放指数线性单元 (SELU) 比其他非线性激活(例如 ReLU)表现更好。 SNN 的目标是为标准化输入生成标准化输出 ...

0 0 0 0 2025/01/13 arXiv:1905.01338v1 feixiang_peng

我们揭示了自回归大型语言模型(LLM)中令人惊讶的泛化失败。如果模型以“A is B”形式的句子上进行训练,它不会自动泛化到相反的方向“B is A” 。这就是逆转咒... ...

0 0 0 0 2024/11/07 arXiv:2309.12288v4 feixiang_peng

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)