NeverSettle的文档

Guiding Large Language Models to Post-Edit Machine Translation with Error Annotations

机器翻译（MT）仍然是大型语言模型（LLMS）尚未取代专用监督系统的最后一个NLP任务之一。这项工作利用了LLM和受监督的MT的互补优势，通过引导LLMS自动在编辑后MT和外部反馈其质量的外部反馈，这些反馈源自多维质量度量（MQM）注释。使用Llama-2模型，我们考虑提示策略改变提供的反馈的性质，然后微调LLM以提高其利用提供指导的能力 ...

0 0 0 0 2025/06/11 arXiv:2404.07851v1 NeverSettle

Fine-Tuned Machine Translation Metrics Struggle in Unseen Domains

我们引入了一个新的，广泛的多维质量指标（MQM）注释的数据集，其中涵盖了生物医学领域中11对语言对。我们使用此数据集研究机器翻译（MT）指标是否通过人类生成的MT质量判断进行了微调，对训练和推理之间的领域变化是否强大。我们发现，微型指标相对于依赖于表面形式的指标以及未对MT质量判断的预先调整的指标以及预训练的指标表现出很大的性能下降 ...

0 0 0 0 2025/06/11 arXiv:2402.18747v2 NeverSettle

Efficient Pretraining Data Selection for Language Models via Multi-Actor Collaboration

有效的数据选择对于加速语言模型（LMS）的训练至关重要。尽管已经提出了各种方法来提高数据效率，但有限的研究已经解决了这些方法之间的固有冲突，以实现LM训练的最佳数据选择。为了解决此问题，我们提出了一个多演员协作数据选择机制：每种数据选择方法基于其标准独立优先考虑数据，并使用模型的当前状态更新其优先级规则，并用作数据选择的独立参与者；主机旨在调整各个阶段的不同参与者的影响，并在整个LM训练过程中动态整合所有参与者的信息 ...

0 0 0 0 2025/06/10 arXiv:2410.08102v3 NeverSettle

An Empirical Study of LLM-as-a-Judge for LLM Evaluation: Fine-tuned Judge Model is not a General Substitute for GPT-4

最近，利用大语言模型（LLM）评估其他LLM的质量的趋势越来越大。许多研究具有基于开源LLM的评估法官模型进行评估。虽然据称经过微调的法官模型可以与GPT-4实现可比的评估能力，但在这项工作中，我们对LLM-AS-A-A-Gudge进行了经验研究 ...

0 0 0 0 2025/06/10 arXiv:2403.02839v4 NeverSettle

Self-Tuning: Instructing LLMs to Effectively Acquire New Knowledge through Self-Teaching

由于一次性训练和世界不断发展的性质，大型语言模型 (LLM) 通常难以提供最新信息。为了使 LLM 保持最新状态，现有方法通常需要对新文件进行持续的预培训。然而，他们在提取存储的知识时经常面临困难 ...

0 0 0 0 2025/06/10 arXiv:2406.06326v5 NeverSettle

M-MAD: Multidimensional Multi-Agent Debate for Advanced Machine Translation Evaluation

大语言模型（LLM）的最新进展引起了法学委员会的法官范式，展示了他们提供类似人类判断的潜力。但是，在机器翻译（MT）评估领域中，当前的LLM-AS-A-A-Gudge方法缺乏学识渊博的自动指标。在本文中，我们提出了多维多代理辩论（M-MAD），这是一个系统的基于LLM的系统多代理框架，用于高级LLM-AS-A-A-A-Gudge MT评估 ...

0 0 0 0 2025/06/10 arXiv:2412.20127v3 NeverSettle

Multiple References with Meaningful Variations Improve Literary Machine Translation

虽然可以通过多种方式翻译源句，但大多数机器翻译（MT）模型仅使用单个参考训练。先前的工作表明，使用合成释义可以改善MT。本文通过分析PAR3数据集中世界文献不同英语翻译之间的语义相似性来研究采用多种参考的最佳实践 ...

0 0 0 0 2025/05/22 arXiv:2412.18707v2 NeverSettle

Scaling up COMETKIWI: Unbabel-IST 2023 Submission for the Quality Estimation Shared Task

我们介绍了Unberbel和Instituto SuperiorTécnico对WMT 2023质量估计（QE）的共同任务的共同贡献。我们的团队参与了所有任务：句子和单词级质量预测（任务1）和细粒度错误跨度检测（任务2）。对于所有任务，我们以Cometkiwi-22模型为基础（REI等人 ...

0 0 0 0 2025/04/24 arXiv:2309.11925v1 NeverSettle

MT-R1-Zero: Advancing LLM-based Machine Translation via R1-Zero-like Reinforcement Learning

大规模加强学习（RL）方法已被证明在增强大语言模型（LLM）的推理能力方面非常有效，尤其是对于具有可验证解决方案（例如数学和编码）的任务。但是，将此想法应用于机器翻译（MT），其中输出的格式灵活并且难以自动使用明确的规则自动评估，但仍未得到充实。在这项工作中，我们介绍了MT-R1-Zero，这是MT R1-Zero RL框架的第一个开源改编，而无需监督微调或冷启动 ...

0 0 0 0 2025/04/15 arXiv:2504.10160v1 NeverSettle

The N+ Implementation Details of RLHF with PPO: A Case Study on TL;DR Summarization

这项工作是第一个公开从人类反馈（RLHF）的缩放行为中公开重现了在Openai开创性TL中报告的缩放行为的研究。我们从头开始创建RLHF管道，列举超过20个关键实施细节，并在复制期间共享关键见解。我们受RLHF训练的毕达斯模型在响应质量上显示出具有模型大小的响应质量的显着增长，而我们的2则具有2 ...

0 0 0 0 2025/04/14 arXiv:2403.17031v1 NeverSettle