最近的工作声称大型语言模型显示出新兴的能力,这些能力在较小规模的模型中不存在,但在较大规模的模型中却存在。新兴能力的节点存在于两个方面:它们有趣的敏锐性,似乎是瞬间从不存在现在的转变,以及它们的不可预测在这里,我们对支撑能力提出了另一种解释:对于特定的任务和模型族,在分析固定模型输出时,支撑能力的出现是由于研究人员对关注的选择,而不是由于模型行为随规模的根本变化而出现... ...
自然语言到代码生成是LLM的一个重要应用领域,受到了社会的广泛关注。大多数相关研究都集中在增加训练集的数量和功能正确性上,而忽略了程序的其他风格元素。最近,数据质量引起了人们的广泛关注,成果工作都展现了其对于提高性能的重要性...... ...
对话摘要涉及广泛的场景和领域。然而,现有方法通常仅适用于特定场景或领域。在本研究中,我们提出了一种专门为多场景多领域对话摘要设计的新预训练模型 ...
大型语言模型 (LLM) 引起了人们对降低生成文本的成本的担忧,这些文本可能用于不道德或非法目的,尤其是在社交媒体上。本文研究了此类模型的前景,以帮助执行与在线披露赞助内容相关的法律要求。我们研究使用 LLM 生成合成 Instagram 标题,有两个目标:第一个目标(保真度)是生成真实的合成数据集 ...
在本文中,我们探讨了 Translationese 作为使用机器翻译创建的合成数据用于预训练语言模型 (LM) 的效用。预训练需要大量的单语数据,而这对于英语以外的语言来说大多是无法获得的。最近,人们对使用合成数据来解决数据稀缺问题越来越感兴趣 ...
这项研究调查了在其前辈生成的合成数据上训练大型语言模型 (LLM) 的后果,这是一种日益普遍的做法,旨在解决人类生成的训练数据供应有限的问题。与通常强调的绩效指标不同,我们重点关注这种培训方法对语言多样性的影响,尤其是随着时间的推移递归进行时。为了评估这一点,我们开发了一套针对词汇、句法和语义多样性的新颖指标,并将它们应用于各种自然语言生成任务的递归微调实验中 ...
语言模型(LM)是自然语言处理的强大工具,但当它们很小时时,通常很难生成连贯且流畅的文本。即使经过大量训练,具有大约 125M 参数的模型(例如 GPT-Neo(小)或 GPT) -2(小))也很少能生成几个单词之外的连贯一致的英语文本。这就提出了一个问题:生成连贯英文文本的能力是否只出现在更大的规模(具有数亿个参数或更多)和复杂架构(具有全球高度关注)的情况下... ...
数据稀缺一直是开放领域社会对话领域长期存在的问题。为了解渴,我们推出了 SODA:第一个公开可用的百万级高质量社交对话数据集。通过将知识图中的社会常识知识置于语境中,我们能够从大型语言模型中提取出极其广泛的社会互动 ...
这项研究在大型语言模型(LLM)的背景下调查了“被遗忘权”的概念。我们探索机器取消学习作为关键解决方案,重点关注预训练模型——这是一个明显研究不足的领域。我们的研究描绘了预训练 LLM 中机器遗忘的综合框架,包括对七种不同遗忘方法的批判性分析 ...
大量数据和计算资源已经证明了大型语言模型 (LLM) 的强大功能。然而,语言模型在移动设备上的应用面临着计算和内存成本的巨大挑战,即迫切需要高性能的微型语言模型。受限于高度复杂的训练过程,优化语言模型有很多细节很少被仔细研究 ...