我们描述了 GEMBA,这是一种基于 GPT 的翻译质量评估指标,无论是否有参考翻译都适用。在我们的评估中,我们重点关注零样本提示,根据参考的可用性,比较两种模式下的四种提示变体。我们研究了九个版本的 GPT 模型,包括 ChatGPT 和 GPT-4。我们表明,我们的翻译质量评估方法仅适用于 GPT~3.5 和更大的模型。与 WMT22 的 Metrics 共享任务的结果相比,与基于 MQM 的人类标签相比,我们的方法在两种模式下都实现了最先进的准确性。我们的结果在系统级别上对于所有三个 WMT22 Metrics 共享任务语言对均有效,即英语到德语、英语到俄语和汉语到英语。这让我们第一次了解到预训练的生成式大型语言模型在翻译质量评估方面的有用性。我们公开发布用于本工作中描述的实验的所有代码和提示模板,以及所有相应的评分结果,以允许外部验证和可重复性 ...
新词感知机器翻译旨在将包含新词的源句子翻译成目标语言。与一般机器翻译 (MT) 相比,该领域仍未得到充分探索。在本文中,我们提出了一个代理框架 NeoAMT,用于使用维基词典搜索工具进行新词感知机器翻译。具体来说,我们首先为新词感知机器翻译创建一个新的数据集,并开发一个基于维基词典的搜索工具。新数据集涵盖 16 种语言和 75 个翻译方向,源自英语维基词典转储的约 1000 万条记录。该搜索工具的检索语料库也是根据维基词典转储的约 300 万条经过清理的记录构建的。然后,我们用它来通过强化学习(RL)来训练翻译代理,并评估新词感知机器翻译的准确性。基于此,我们还提出了一个 RL 训练框架,其中包含新颖的奖励设计和自适应推出生成方法,通过利用“翻译难度”来进一步提高使用我们的搜索工具的翻译代理的翻译质量 ...
随着大型语言模型 (LLM) 在处理英语以外的语言方面的能力越来越强,收集基准数据集以评估其多语言性能(包括机器翻译 (MT) 等任务)非常重要。在这项工作中,我们除了对原始 WMT24 数据集中 9 种语言中的 8 种语言的参考文献进行后期编辑之外,还收集了 46 种新语言和方言的新的人工编写参考文献和后期编辑,将 WMT24 数据集扩展为涵盖 55 种语言。该数据集涵盖四个领域:文学、新闻、社交和演讲。我们使用自动指标对收集的数据集上的各种 MT 提供商和 LLM 进行基准测试,发现 LLM 是所有 55 种语言中性能最佳的 MT 系统。这些结果应该通过基于人的评估来确认,我们将其留待未来的工作 ...
语言技术有助于促进世界各地的多种语言和语言多样性。然而,在快速发展的语言技术和应用中,世界上 7000 多种语言中只有极少数具有代表性。在本文中,我们研究了语言类型、资源及其在 NLP 会议中的代表之间的关系,以了解不同语言随着时间的推移所遵循的轨迹。我们的定量调查强调了语言之间的差异,特别是在资源方面,并对当前模型和系统的“语言不可知”状态提出了质疑。通过本文,我们试图说服 ACL 社区优先解决此处强调的困境,以便不遗漏任何语言 ...
大型语言模型(LLM)表现出不断提高的多语言能力,甚至小型开源模型也表现出快速的性能增强。在本文中,我们系统地探索了参数少于百亿的开放式 LLM 处理多语言机器翻译(MT)任务的能力。我们对六种热门的 LLM 进行了综合评估,发现像 Gemma2-9B 这样的模型表现出了令人印象深刻的多语言翻译能力。然后,我们在持续预训练阶段引入并行第一单语第二(PFMS)数据混合策略,以进一步增强机器翻译性能,并提出 GemmaX2-28,这是一个在 28 种语言中实现顶级多语言翻译性能的 9B 模型。具体来说,GemmaX2-28 始终优于 TowerInstruct 和 XALMA 等最先进 (SOTA) 模型,并实现了与 Google Translate 和 GPT-4-turbo 竞争的性能 ...
广泛使用的机器翻译评估学习指标(例如 COMET 和 BLEURT)通过提供单个句子级别的分数来评估翻译假设的质量。因此,它们对翻译错误的了解很少(例如,错误是什么及其严重程度)。另一方面,生成式大语言模型(LLM)正在扩大采用更细粒度的评估策略,试图对翻译错误进行详细说明和分类。在这项工作中,我们引入了 xCOMET,这是一种开源学习指标,旨在弥合这些方法之间的差距。 xCOMET 集成了句子级评估和错误跨度检测功能,在所有类型的评估(句子级、系统级和错误跨度检测)中展现出最先进的性能。此外,它同时突出显示错误范围并对其进行分类,从而丰富了质量评估。我们还提供了压力测试的稳健性分析,并表明 xCOMET 在很大程度上能够识别局部关键错误和幻觉 ...
大型语言模型 (LLM) 通过提示展示了卓越的机器翻译 (MT) 能力,即使它们没有经过针对此任务的明确训练。然而,即使考虑到他们接受的训练数据数量惊人, LLM 也可能很难翻译含有稀有单词的输入,这在资源匮乏或域转移场景中很常见。我们表明,通过使用双语词典中的先验知识在提示中提供控制提示,LLM 提示也可以为罕见单词提供有效的解决方案。我们提出了一种新颖的方法 DiPMT,它为输入单词的子集提供一组可能的翻译,从而实现 LLM 的细粒度短语级提示控制。大量实验表明,DiPMT 在低资源 MT 和域外 MT 方面均优于基线。我们进一步对这种方法的优点和局限性进行定性分析,包括所实现的总体可控性水平 ...
事实证明,微调预训练的 LLM 是在机器翻译等特定任务上达到最先进性能的有效策略。然而,这种适应过程通常意味着牺牲通用功能,例如对话推理和指令遵循,从而阻碍了系统在需要混合技能的实际应用中的实用性。在本文中,我们介绍了 Tower+,这是一套模型,旨在在翻译和多语言通用文本功能方面提供强大的性能。我们通过引入一种基于 Tower 的新颖训练方法(Alves 等人,2024),实现了翻译专业化和多语言通用能力之间的帕累托前沿,包括持续预训练、监督微调、偏好优化和具有可验证奖励的强化学习。在训练的每个阶段,我们都会仔细生成和整理数据,以增强翻译以及涉及代码生成、数学问题解决和一般指令遵循的通用任务的性能。我们开发多种尺度的模型:2B、9B 和 72B。我们的较小模型通常优于较大的通用开放权重和专有 LLM(例如 Llama 3.3 70B、GPT-4o)。我们最大的模型为高资源语言提供了一流的翻译性能,并在多语言 Arena Hard 评估和 IF-MT(我们引入的用于评估翻译和指令遵循的基准)中取得了顶级结果。我们的研究结果强调,可以在一般功能上与前沿模型相媲美,同时针对特定业务领域(例如翻译和本地化)进行优化 ...
随着自然语言处理 (NLP) 领域大规模预训练和多语言建模的成功,近年来涵盖数百种语言的大型网络挖掘文本数据集激增。我们手动审核了通过五个主要公共数据集(CCAligned、ParaCrawl、WikiMatrix、OSCAR、mC4)发布的 205 个特定语言语料库的质量。资源较低的语料库存在系统性问题:至少 15 个语料库没有可用的文本,并且很大一部分包含质量可接受的句子少于 50% ...
虽然神经机器翻译 (NMT) 代表了机器翻译 (MT) 的领先方法,但 NMT 模型的输出仍然需要翻译译后编辑来纠正错误并提高关键设置下的质量。在这项工作中,我们将使用大型语言模型 (LLM) 的直接翻译译后编辑任务形式化,并探索使用 GPT-4 跨多个语言对自动对 NMT 输出进行译后编辑。我们的结果表明,GPT-4 擅长翻译后期编辑,对翻译进行有意义且值得信赖的编辑,有助于提高其总体质量并消除翻译中不同类别的主要错误 ...