基本信息

文件基本信息

名称

Multilingual Machine Translation with Open Large Language Models at Practical Scale: An Empirical Study

首页

https://yiyibooks.cn/arxiv/2502.02481v4/index.html

原始地址

https://arxiv.org/pdf/2502.02481

描述

大型语言模型（LLM）表现出不断提高的多语言能力，甚至小型开源模型也表现出快速的性能增强。在本文中，我们系统地探索了参数少于百亿的开放式 LLM 处理多语言机器翻译（MT）任务的能力。我们对六种热门的 LLM 进行了综合评估，发现像 Gemma2-9B 这样的模型表现出了令人印象深刻的多语言翻译能力。然后，我们在持续预训练阶段引入并行第一单语第二（PFMS）数据混合策略，以进一步增强机器翻译性能，并提出 GemmaX2-28，这是一个在 28 种语言中实现顶级多语言翻译性能的 9B 模型。具体来说，GemmaX2-28 始终优于 TowerInstruct 和 XALMA 等最先进 (SOTA) 模型，并实现了与 Google Translate 和 GPT-4-turbo 竞争的性能 ...