在本报告中,我们介绍了我们的第一个开源多语言翻译模型Hunyuan-MT-7B,该模型支持跨33种主要语言的双向翻译,并特别强调了普通话与几种少数族裔语言以及方言之间的翻译。此外,为了在测试时间服务和解决各种翻译方案并提高模型性能,我们介绍了Hunyuan-Mt-Chimera-7b,这是一种受缓慢思考模式启发的翻译模型。该模型集成了由Hunyuan-MT-7B模型在不同的参数设置下产生的多个输出,从而实现了基于三链(COT)的常规缓慢思考模型的性能 ...
我们通过使用基于 Transformer 的结构等深度学习检查多语言神经网络模型来对临床文本翻译进行研究。此外,为了解决语言资源不平衡问题,我们还使用基于大规模多语言的预训练的语言模型(MMPLM)进行转移学习方法进行实验。在三个子任务中的实验结果,包括1)临床病例(CC),2)临床术语(CT)和3)本体论概念(OC)表明,我们的模型在Clinspen-2022在英语 - 跨度临床领域数据上达到了顶级表现 ...
机器翻译在医疗保健中是必不可少的,可以使全球跨语言的医学知识传播。但是,复杂的医学术语为实现足够的翻译质量和准确性带来了独特的挑战。这项研究介绍了一种新型的“ LLMS-IN-IN-IN-IN-IN-IN-IN-IN-IN-IN-IN-IN-IN-IN-IN-IN-IN-IN-IN-IN-IN-IN-IN-IN-IN-IN-IN-IN-IN-IN-IN-IN-IN-IN-IN-IN-IN-IN-IN-IN-IN-IN-IN-LLMS”方法,以开发专门针对医学文本优化的监督神经机器翻译模型 ...
这项研究探索了机器翻译人员(MTESE) - 机器翻译输出的语言特点 - 重点关注新闻文本中研究不足的英语对英语对语言。我们构建了一个由4个亚公司组成的大型数据集,并采用了全面的五层功能集。然后,在分类任务和聚类任务中都应用了卡方排名算法 ...
聊天的复杂性对机器翻译模型构成了重大挑战。认识到需要进行精确评估指标以解决聊天翻译问题,本研究介绍了聊天翻译的多维质量指标(MQM-CHAT)。通过使用MQM-CHAT的五个模型的实验,我们观察到所有模型都会产生某些基本错误,而每个模型都有不同的缺点,例如省略,过于纠正模棱两可的源内容和流行语问题,从而导致丢失风格化的信息 ...
深度神经网络和巨大的语言模型在自然语言应用中无处不在。正如他们以需要大量培训数据而闻名的那样,越来越多的工作来改善低资源环境中的性能。由于最近对神经模型的根本变化以及流行的预训练和微调范式的动机,我们调查了低资源自然语言处理的有希望的方法 ...
大型语言模型(LLMS)的进步主要集中在高资源语言上,留下低资源的语言,例如Finno-ugric家族中的语言,其代表性不足。本文通过着眼于Võro,Livonian和Komi来解决这一差距。从数据收集到指令调整和评估,我们几乎涵盖了LLM创建的整个周期 ...
大型语言模型(LLMS)尽管能够执行几次射击机器翻译(MT),但通常落后于专用的MT系统,该系统接受了并行语料库培训的,这对于高质量的机器翻译(MT)至关重要。但是,对于低资源语言,平行语料库通常很少或不存在。在本文中,我们提出了CycleDistill,这是利用LLM的自举方法,几乎没有射击翻译以获得高质量的MT系统 ...
质量估计(QE)模型评估机器翻译的质量而无需参考翻译,作为翻译任务的奖励模型。由于数据稀缺,合成数据的生成已成为有希望的解决方案。但是,合成的量化量化宽松数据通常遭受分布变化的影响,这可能表现为伪和真实翻译之间的差异,或者在与人类偏好不符的伪标签中 ...
尽管对数据质量有疑问,但教学综合已被广泛应用于LLMS的指导调整(IT)作为经济和快速替代方案。最近的努力着重于改善英语合成教学对的数据质量,并促进了以英语为中心的LLM的数据质量。但是,多语言合成指令对中的数据质量问题更加严重,因为常见的合成实践是使用机器翻译(MT)将英语合成数据转换为其他语言 ...