为了在大型可用文本数据语料库上实现最高性能,最先进的语言模型变得越来越大。然而,Transformer 架构的庞大规模使得在计算、环境或特定设备的限制下部署模型变得困难。我们探索现有预训练模型的数据驱动压缩,作为从头开始训练较小模型的替代方案 ...
基于 Transformer 的大型语言模型 (LLM) 受到底层 Transformer 架构的固定上下文窗口的限制,阻碍了它们产生长且连贯的输出的能力。记忆增强 LLM 是一种有前途的解决方案,但当前的方法无法处理长时间的输出生成任务,因为它们(1)只专注于读取记忆并减少其向新记忆串联的演变,或者(2)使用无法适应的非常专业的记忆其他域。本文提出了 L2MAC,第一个实用的基于 LLM 的通用 ...
虽然大型语言模型(LLM)能够从预训练语料库中学习知识,但随着时间的推移,所获得的知识可能根本上是错误的或过时的,这需要在训练后纠正语言模型(LM)的知识。一种有前途的方法涉及采用超网络来生成参数移位,而现有的超网络在同步编辑操作量方面存在较差的可扩展性。为了缓解这个问题,我们提出了 MAssive 语言模型编辑网络(MALMEN),它将参数移位聚合表述为最小二乘问题,随后使用正规方程更新 LM ...
最近的研究成功表明,大型语言模型(LLM)可以成功用于自动语音识别(ASR)上面的生成修正错误(GER)。具体来说,LLM用于执行从ASR系统生成的N个最佳假设到列表输出预测的直接映射。然而,考虑 GER 有效,但由于 LLM 的训练没有语音信号中可用的声学信息,因此 GER 引入了额外的数据不确定性 ... ...
随着大型语言模型 (LLM) 的部署更加广泛,词汇、风格和字符的定制变得更加重要。在这项工作中,我们引入了模型算术,这是一种新颖的推理框架,用于组合和偏置 LLM,而无需模型(重新)训练或高度特定的数据集。此外,与直接提示和事先受控文本生成 (CTG) 技术相比,该框架允许更精确地控制生成的文本 ...
机器学习算法在使用有限设备组的音频记录进行训练时,可能无法很好地推广到使用具有不同频率响应的其他设备记录的样本。在这项工作中,引入了一种相对简单的方法来解决这个问题。提出了该方法的两种变体 ...
上下文学习是一种有前途的范例,它利用上下文示例作为大型语言模型预测的提示。这些提示对于实现出色的绩效至关重要。然而,由于提示需要从大量带注释的示例中采样,找到正确的提示可能会导致较高的注释成本 ...
由于模型大小巨大(例如 GPT-3 中的 350GB),微调大型语言模型 (LLM) 并为每个下游任务或域存储它们是不切实际的 ...