我们提出了一种新颖的推理方案,即自推测解码,用于加速大型语言模型(LLM),而辅助补充模型。这种方法的特点是有两个阶段的过程:达尔文和验证。稍低的质量但选择更快地生成草稿 Token ,这是通过在起草期间有地跳过某些中间层来实现的... ...
0 0 0 2025/01/18 arXiv:2309.08168v2 18729395978
解码方法在将语言模型从下一个标记预测器转换为实际任务求解器的过程中发挥着不可或缺的作用。先前对解码方法的研究主要集中在特定于任务的模型,可能无法扩展到当前的通用大语言模型(LLM)时代。此外,最近解码策略的涌入使这一情况进一步复杂化 ...
0 0 0 2025/01/18 arXiv:2402.06925v3 rui.cao
近年来,深度自回归序列到序列模型在各种任务中表现出了令人印象深刻的性能。虽然常见的架构类别(例如循环网络、卷积网络和自注意力网络)在每层所需的计算量和训练时关键路径的长度之间进行了不同的权衡,但生成仍然是一个固有的顺序过程。为了克服这个限制,我们提出了一种新颖的分块并行解码方案,其中我们并行地对多个时间步进行预测,然后退回到由评分模型验证的最长前缀 ...
0 0 0 2025/01/18 arXiv:1811.03115v1 rui.cao
顺序推荐旨在捕捉用户的动态兴趣并预测用户的下一个偏好项。大多数顺序推荐方法使用深度神经网络作为序列编码器来生成用户和项目表示。现有的工作主要集中在设计更强的序列编码器 ...
0 0 0 2025/01/17 arXiv:2304.14668v3 sway
我们认为,基于扩散的生成模型的理论和实践目前不必要地复杂化,并试图通过提出一个明确区分具体设计选择的设计空间来纠正这种情况。这让我们能够识别采样和训练过程以及评分网络的预处理的一些变化。我们的改进共同带来了最先进的新 FID 为 1 ...
0 0 0 2025/01/17 arXiv:2206.00364v2 alex666
大型语言模型(LLM)可以仅通过任务指令和一些输入输出样本来执行新任务,从而优化任何参数。这被称为隐蔽学习(ICL)。上下文信息提取(IE)最近引起了研究界的关注。 .. ...
0 0 0 2025/01/17 arXiv:2310.05066v2 cocoder
我们提出了新颖的注意力架构:多矩阵分解注意力(MFA)和MFA-Key-Reuse(MFA-KR)。标准多头注意力 (MHA) 的现有变体,包括 MLA 等 SOTA 方法,在严格的键值缓存(KV 缓存)约束下无法保持强大的性能。 MFA 通过查询键 (QK) 电路中的低秩矩阵分解有效地扩展注意力头的数量和维度,从而增强模型容量 ...
0 0 0 2025/01/17 arXiv:2412.19255v2 ymx
计算机系统的安全性通常依赖于硬件信任根。由于硬件中的漏洞可能对系统产生严重影响,因此需要支持安全验证活动的技术。基于断言的验证是一种流行的验证技术,涉及捕获一组断言中的设计意图,这些断言可用于形式验证或基于测试的检查 ...
0 0 0 2025/01/17 arXiv:2306.14027v2 spiritedge

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)