大型语言模型(LLMS)取得了显着的进步,证明了各种自然语言处理任务中前所未有的功能。但是,与此类出色绩效相关的高成本限制了LLM的广泛采用,强调了迅速压缩的需求。现有的及时压缩方法主要依赖于启发式截断或抽象性摘要技术,从根本上讲,这些技术从根本上忽略了LLM的内在机制,并且缺乏对 Token 对生成重要性的系统评估 ...
大型语言模型(LLM)的最新进展彻底改变了推理任务的格局。为了增强LLM效仿人类推理的能力,先前的研究重点是使用链,树木或图形等各种思想结构对推理步骤进行建模。但是,基于LLM的推理仍然遇到以下挑战:(1)预设结构对各种任务的适应性有限; (2)在利用已知条件来得出新的条件方面的精度不足; (3)对后续推理步骤的历史推理经验的考虑不足 ...
顺序推荐(SEQREC)旨在通过从用户的历史互动中捕获顺序模式,在许多现实世界中的推荐系统中起着至关重要的作用来预测下一项。但是,现有方法主要采用直接的前向计算范式,其中序列编码器的最终隐藏状态用作用户表示。我们认为,由于其计算深度有限,这种推论范式努力模拟用户偏好的复杂发展性质,并且缺乏对长尾项目的细微理解,从而导致了次优性能 ...
大型推理模型(LRMS)通过遵循结合反射,回溯和自我验证的长期思考(长床)来解决复杂的推理问题。但是,培训技术和数据要求引起长床的理解仍然很少。在这项工作中,我们发现大型语言模型(LLM)可以通过数据有效监督的微调(SFT)和参数有效的低级适应(LORA)有效地学习长期的COT推理 ...
在缺乏用于复杂推理任务的大量人工注释数据的情况下,自我改进(模型根据自己的输出进行训练)已成为提高性能的主要方法。然而,这些迭代自我改进方法背后的关键因素仍然知之甚少,例如在什么条件下自我改进是有效的,以及当前迭代的瓶颈是什么。在这项工作中,我们确定并提出了监控此迭代过程中两个关键因素的方法:(1)模型生成足够多样化的响应(探索)的能力; (2) 外部奖励在区分高质量候选人和低质量候选人方面的有效性(剥削) ...
我们引入渐进式提示 - 一种简单而有效的语言模型持续学习方法。我们的方法允许前向传输并防止灾难性遗忘,而不依赖于数据重放或大量特定于任务的参数。渐进式提示为每个任务学习一个新的软提示,并按顺序将其与先前学习的提示连接起来,同时保持基本模型冻结 ...
文本嵌入通常可以在来自单个任务的一组数据集上进行评估,而不是涵盖它们在其他任务中的可能应用。目前尚坟最先进的语义文本相似性(STS)嵌入是否同样很好地应用于TNF或重新排名等其他任务。这使得该领域的进展难以追踪,因为在没有适当评估的情况下不断提出各种模型...... ...
在这项工作中,我们提出了两种在张量处理单元(TPU)集群上进行大规模离散傅里叶变换(DFT)的并行算法。这两种并行算法与 DFT 的两种形式相关:一种是基于 Kronecker 乘积,具体来说,是输入数据与 Vandermonde 矩阵之间的密集矩阵乘法,在本工作中表示为 KDFT;另一种是基于著名的Cooley-Tukey算法和相位调整,在本工作中表示为FFT。 KDFT 和 FFT 公式都充分利用了 TPU 在矩阵乘法方面的优势 ...
虽然低秩适应 (LoRA) 已被证明有助于有效地微调大型模型,但 LoRA 微调的文本到图像扩散模型缺乏生成图像的多样性,因为该模型倾向于从观察到的训练样本中复制数据。在适配器强度值较高以及在较小数据集上进行微调的具有较高等级的适配器时,这种效果变得更加明显。为了解决这些挑战,我们提出了 FouRA,一种新颖的低秩方法,它可以学习傅里叶域中的投影,同时学习灵活的依赖于输入的适配器等级选择策略 ...
预训练的大型语言模型 (LLM) 表现出令人印象深刻的数学推理能力,但它们如何计算加法等基本算术仍不清楚。本文表明,预训练的 LLM 使用傅立叶特征(隐藏状态中的维度,通过频域中稀疏的一组特征表示数字)来添加数字。在模型中,MLP 和注意力层以互补的方式使用傅立叶特征:MLP 层主要使用低频特征来近似答案的大小,而注意力层主要执行模加法(例如,模加法) ...