“越大越好”是最近大型语言模型(LLM)开发的主要趋势。然而,LLM 不太适合需要设备上处理、能源效率、低内存占用和响应效率的场景。这些必要条件对于隐私、安全和可持续部署至关重要 ...
随着大型语言模型(LLM)的使用不断增长,使用这些模型进行高效推理变得越来越重要。虽然推测解码最近已成为加速推理的一个有前景的方向,但现有方法在聚类更大的推测预算以及适应不同的超参数和硬件方面的能力获得。 本文介绍了 Sequoia,一种可扩展、坚固且硬件设备的推测算法 ... ...
最近,大型语言模型(LLM)表现出了非凡的能力,包括理解上下文、进行逻辑推理和生成响应。然而,这是以严格的计算和内存要求为代价实现的,阻碍了它们有效支持长输入序列的能力。这项调查对旨在延长 LLM 序列长度的最新技术和方法进行了包容性回顾,从而增强了他们的长上下文理解能力 ...
虽然从头开始训练大型语言模型(LLM)可以生成具有独特功能和优势的模型,但其成本很高,并且可能会导致功能发音。或者,一种经济有效且引人注目的方法足以显现有的预训练LLM合并到更有效的模型中。然而,由于这些LLM的架构不同,直接混合它们的权重是不切实际的... ...
最近的工作声称大型语言模型显示出新兴的能力,这些能力在较小规模的模型中不存在,但在较大规模的模型中却存在。新兴能力的节点存在于两个方面:它们有趣的敏锐性,似乎是瞬间从不存在现在的转变,以及它们的不可预测在这里,我们对支撑能力提出了另一种解释:对于特定的任务和模型族,在分析固定模型输出时,支撑能力的出现是由于研究人员对关注的选择,而不是由于模型行为随规模的根本变化而出现... ...
自然语言到代码生成是LLM的一个重要应用领域,受到了社会的广泛关注。大多数相关研究都集中在增加训练集的数量和功能正确性上,而忽略了程序的其他风格元素。最近,数据质量引起了人们的广泛关注,成果工作都展现了其对于提高性能的重要性...... ...
对话摘要涉及广泛的场景和领域。然而,现有方法通常仅适用于特定场景或领域。在本研究中,我们提出了一种专门为多场景多领域对话摘要设计的新预训练模型 ...
大型语言模型 (LLM) 引起了人们对降低生成文本的成本的担忧,这些文本可能用于不道德或非法目的,尤其是在社交媒体上。本文研究了此类模型的前景,以帮助执行与在线披露赞助内容相关的法律要求。我们研究使用 LLM 生成合成 Instagram 标题,有两个目标:第一个目标(保真度)是生成真实的合成数据集 ...
在本文中,我们探讨了 Translationese 作为使用机器翻译创建的合成数据用于预训练语言模型 (LM) 的效用。预训练需要大量的单语数据,而这对于英语以外的语言来说大多是无法获得的。最近,人们对使用合成数据来解决数据稀缺问题越来越感兴趣 ...
这项研究调查了在其前辈生成的合成数据上训练大型语言模型 (LLM) 的后果,这是一种日益普遍的做法,旨在解决人类生成的训练数据供应有限的问题。与通常强调的绩效指标不同,我们重点关注这种培训方法对语言多样性的影响,尤其是随着时间的推移递归进行时。为了评估这一点,我们开发了一套针对词汇、句法和语义多样性的新颖指标,并将它们应用于各种自然语言生成任务的递归微调实验中 ...