思想链 (CoT) 解码使语言模型能够提高推理性能,但代价是解码中的高生成延迟。最近的提案探索了沉思标记的变体,我们引入的这个术语指的是在推理过程中使用的特殊标记,以允许额外的计算。先前的工作已将从一组离散的嵌入中提取的固定长度序列视为沉思 Token ...
文本风格迁移(TST)旨在改变文本风格,同时保留其核心内容。考虑到 TST 并行数据集有限的限制,我们提出了 CoTeX,一个利用大型语言模型 (LLM) 和思想链 (CoT) 提示来促进 TST 的框架。 CoTeX 将 LLM 的复杂重写和推理能力提炼成更简化的模型,能够处理非并行和并行数据 ...
生成包含场景和镜头语言等信息的高质量拍摄脚本对于短剧脚本生成至关重要。我们从互联网上收集了 6,660 部热门短剧集,平均每集有 100 集短剧,短集总数约为 80,000 集,总时长约为 2,000 小时,总计 10 TB。我们对每集进行关键帧提取和标注,得到约10,000,000个拍摄脚本 ...
大型语言模型 (LLM) 预训练传统上依赖于对网络规模数据集中随机采样的数据块进行自回归语言建模。我们从人类学习技术(例如间隔重复)中汲取灵感,假设 LLM 的随机数据采样会导致高训练成本和低质量模型,而这些模型往往会忘记数据。为了有效地将网络规模的信息提交到长期记忆中,我们提出了 LFR(学习、聚焦和回顾)教学法,这是一种新的动态训练范式,它基于模型的学习,以系统间隔聚焦并重复审查复杂的数据块步伐和进展 ...
大型语言模型 (LLM) 极大地影响了写作过程,支持协作内容创建并提高生产力。然而,生成高质量、用户对齐的文本仍然具有挑战性。在本文中,我们提出了写作路径,这是一个使用明确的大纲来指导 LLM 生成以目标为导向的高质量写作的框架 ...
神经机器翻译 (NMT) 的最新研究表明,对高质量机器生成数据的训练可以优于对人类生成数据的训练。这项工作伴随着首次发布的 LLM 生成、MBR 解码和 QE 重新排序数据集,其中包含句子级和多句子示例。我们进行了大量的实验,以证明我们的数据集的质量对 NMT 模型性能的下游影响 ...
随着大型语言模型 (LLM) 的不断扩展,其增强的性能通常不足以解决特定领域的任务。系统地分析他们的失败并有效提高他们的绩效仍然是重大挑战。本文介绍了Re-TASK框架,这是一种新颖的理论模型,在布鲁姆分类学和知识空间理论原则的指导下,从能力、技能、知识的角度重新审视 LLM 任务 ...
我们探讨了对特定领域语料库的持续预训练如何影响大型语言模型,揭示了对原始语料库的训练赋予模型领域知识,但极大地损害了其回答问题的提示能力。受人类通过阅读理解学习的启发——阅读后的练习提高了基于所学知识回答问题的能力——我们提出了一种将原始语料库转换为阅读理解文本的简单方法。每个原始文本都丰富了一系列与其内容相关的任务 ...
多模态大语言模型 (MLLM) 将大语言模型 (LLM) 的成功扩展到图像、文本和音频等多种数据类型,在多模态翻译、视觉问答和内容生成等多个领域取得了显着的性能。尽管如此,由于异构模态模型和 3D 并行中复杂的数据依赖关系导致大量 GPU 气泡,现有系统训练 MLLM 的效率很低。本文提出了 Optimus,一种分布式 MLLM 训练系统,可减少端到端 MLLM 训练时间 ...
本文提出了一种计算高效的方法,只需 9 天即可预训练语言模型(“1.5-Pints”),同时作为指令跟踪助手,其性能优于最先进的模型。基于 MT-Bench (模仿人类判断的基准),1 ...