尽管对数据质量有疑问,但教学综合已被广泛应用于LLMS的指导调整(IT)作为经济和快速替代方案。最近的努力着重于改善英语合成教学对的数据质量,并促进了以英语为中心的LLM的数据质量。但是,多语言合成指令对中的数据质量问题更加严重,因为常见的合成实践是使用机器翻译(MT)将英语合成数据转换为其他语言 ...
机器翻译(MT)仍然是大型语言模型(LLMS)尚未取代专用监督系统的最后一个NLP任务之一。这项工作利用了LLM和受监督的MT的互补优势,通过引导LLMS自动在编辑后MT和外部反馈其质量的外部反馈,这些反馈源自多维质量度量(MQM)注释。使用Llama-2模型,我们考虑提示策略改变提供的反馈的性质,然后微调LLM以提高其利用提供指导的能力 ...
我们引入了一个新的,广泛的多维质量指标(MQM)注释的数据集,其中涵盖了生物医学领域中11对语言对。我们使用此数据集研究机器翻译(MT)指标是否通过人类生成的MT质量判断进行了微调,对训练和推理之间的领域变化是否强大。我们发现,微型指标相对于依赖于表面形式的指标以及未对MT质量判断的预先调整的指标以及预训练的指标表现出很大的性能下降 ...
有效的数据选择对于加速语言模型(LMS)的训练至关重要。尽管已经提出了各种方法来提高数据效率,但有限的研究已经解决了这些方法之间的固有冲突,以实现LM训练的最佳数据选择。为了解决此问题,我们提出了一个多演员协作数据选择机制:每种数据选择方法基于其标准独立优先考虑数据,并使用模型的当前状态更新其优先级规则,并用作数据选择的独立参与者;主机旨在调整各个阶段的不同参与者的影响,并在整个LM训练过程中动态整合所有参与者的信息 ...
最近,利用大语言模型(LLM)评估其他LLM的质量的趋势越来越大。许多研究具有基于开源LLM的评估法官模型进行评估。虽然据称经过微调的法官模型可以与GPT-4实现可比的评估能力,但在这项工作中,我们对LLM-AS-A-A-Gudge进行了经验研究 ...
由于一次性训练和世界不断发展的性质,大型语言模型 (LLM) 通常难以提供最新信息。为了使 LLM 保持最新状态,现有方法通常需要对新文件进行持续的预培训。然而,他们在提取存储的知识时经常面临困难 ...
大语言模型(LLM)的最新进展引起了法学委员会的法官范式,展示了他们提供类似人类判断的潜力。但是,在机器翻译(MT)评估领域中,当前的LLM-AS-A-A-Gudge方法缺乏学识渊博的自动指标。在本文中,我们提出了多维多代理辩论(M-MAD),这是一个系统的基于LLM的系统多代理框架,用于高级LLM-AS-A-A-A-Gudge MT评估 ...
虽然可以通过多种方式翻译源句,但大多数机器翻译(MT)模型仅使用单个参考训练。先前的工作表明,使用合成释义可以改善MT。本文通过分析PAR3数据集中世界文献不同英语翻译之间的语义相似性来研究采用多种参考的最佳实践 ...
我们介绍了Unberbel和Instituto SuperiorTécnico对WMT 2023质量估计(QE)的共同任务的共同贡献。我们的团队参与了所有任务:句子和单词级质量预测(任务1)和细粒度错误跨度检测(任务2)。对于所有任务,我们以Cometkiwi-22模型为基础(REI等人 ...
大规模加强学习(RL)方法已被证明在增强大语言模型(LLM)的推理能力方面非常有效,尤其是对于具有可验证解决方案(例如数学和编码)的任务。但是,将此想法应用于机器翻译(MT),其中输出的格式灵活并且难以自动使用明确的规则自动评估,但仍未得到充实。在这项工作中,我们介绍了MT-R1-Zero,这是MT R1-Zero RL框架的第一个开源改编,而无需监督微调或冷启动 ...