arxiv Multilingual Machine Translation with Open Large Language Models at Practical Scale: An Empirical Study

/documents/71091/

基本信息

文件基本信息

名称
Multilingual Machine Translation with Open Large Language Models at Practical Scale: An Empirical Study
描述
大型语言模型(LLM)表现出不断提高的多语言能力,甚至小型开源模型也表现出快速的性能增强。在本文中,我们系统地探索了参数少于百亿的开放式 LLM 处理多语言机器翻译(MT)任务的能力。我们对六种热门的 LLM 进行了综合评估,发现像 Gemma2-9B 这样的模型表现出了令人印象深刻的多语言翻译能力。然后,我们在持续预训练阶段引入并行第一单语第二(PFMS)数据混合策略,以进一步增强机器翻译性能,并提出 GemmaX2-28,这是一个在 28 种语言中实现顶级多语言翻译性能的 9B 模型。具体来说,GemmaX2-28 始终优于 TowerInstruct 和 XALMA 等最先进 (SOTA) 模型,并实现了与 Google Translate 和 GPT-4-turbo 竞争的性能 ...