我们将交易DNN培训时间和内存需求的问题正式化为张量重新布置优化问题,这是对先前检查点策略的概括。我们介绍了Checkmate,该系统可以在合理的时间(一个小时)(在一个小时的时间内)使用现成的MILP求解器或具有近似算法的近乎最佳的时间表来解决最佳的重新布置时间表,然后使用这些时间表来加速数百万培训迭代。我们的方法缩放到复杂,现实的体系结构,并通过使用基于促进符的基于配置文件的成本模型来了解硬件 ...

0 0 0 0 2025/02/06 arXiv:1910.02653v3 rui.cao

人类反馈强化学习 (RLHF) 已成为使大型语言模型与人类偏好保持一致的关键方法,通过近端策略优化 (PPO)、直接偏好优化 (DPO)、REINFORCE 留一法等方法见证了算法的快速演变(RLOO)、ReMax 和组相对策略优化 (GRPO)。我们提出了 REINFORCE++,这是经典 REINFORCE 算法的增强变体,它结合了 PPO 的关键优化技术,同时消除了对批评网络的需要。 REINFORCE++ 实现了三个主要目标:(1) 简单性 (2) 增强训练稳定性,以及 (3) 减少计算开销 ...

0 0 0 0 2025/01/26 arXiv:2501.03262v1 rui.cao

尽管用于数学推理的大型语言模型 (LLM) 取得了进步,但解决竞赛级别的数学问题仍然是一个重大挑战,特别是对于没有外部工具的开源 LLM 而言。我们引入了 MMIQC 数据集,其中包含处理后的网络数据和合成问题-响应对的混合,旨在增强基础语言模型的数学推理能力。在 MMIQC 上进行微调的模型在各种模型尺寸的 MATH 基准上的性能始终优于同行 ...

0 0 0 0 2025/01/21 arXiv:2401.09003v5 rui.cao

单纯依靠测试通过来评估大型语言模型(LLM)进行代码合成可能会导致评估不公平或推广存在数据泄露的模型。作为替代方案,我们引入了 CodeMind,这是一个旨在衡量 LLM 的代码推理能力的框架。 CodeMind 目前支持三种代码推理任务:独立执行推理 (IER)、相关执行推理 (DER) 和规范推理 (SR) ...

0 0 0 0 2025/01/21 arXiv:2402.09664v4 rui.cao

线性规划(LP)问题在现实生活应用中普遍存在。然而,尽管它们看起来很简单,但未经训练的用户可能会发现很难确定其特定问题的线性模型。我们设想创建一个面向目标的对话代理,它将与用户进行对话以获取所需的所有信息,以便后续代理可以生成线性模型 ...

0 0 0 0 2025/01/21 arXiv:2401.17461v1 rui.cao

解码方法在将语言模型从下一个标记预测器转换为实际任务求解器的过程中发挥着不可或缺的作用。先前对解码方法的研究主要集中在特定于任务的模型,可能无法扩展到当前的通用大语言模型(LLM)时代。此外,最近解码策略的涌入使这一情况进一步复杂化 ...

0 0 0 0 2025/01/18 arXiv:2402.06925v3 rui.cao

近年来,深度自回归序列到序列模型在各种任务中表现出了令人印象深刻的性能。虽然常见的架构类别(例如循环网络、卷积网络和自注意力网络)在每层所需的计算量和训练时关键路径的长度之间进行了不同的权衡,但生成仍然是一个固有的顺序过程。为了克服这个限制,我们提出了一种新颖的分块并行解码方案,其中我们并行地对多个时间步进行预测,然后退回到由评分模型验证的最长前缀 ...

0 0 0 0 2025/01/18 arXiv:1811.03115v1 rui.cao

在过去的 7 年里,注意力已经成为深度学习中最重要的原语之一。优化注意力的主要方法是 FlashAttention,它将操作融合在一起,大大提高了运行时间和内存消耗。然而,FlashAttention 的重要性及其整体性给试图尝试新的注意力变体(“软件彩票”)的研究人员带来了一个问题 ...

0 0 0 0 2025/01/17 arXiv:2412.05496v1 rui.cao

大型语言模型 (LLM) 广泛应用于各个领域,每天处理数百万个请求。需求的激增对优化吞吐量和延迟同时保持成本可控提出了重大挑战。键值 (KV) 缓存是保留先前计算的标准方法,使 LLM 推理高度受内存限制 ...

0 0 0 0 2025/01/17 arXiv:2407.15309v1 rui.cao

每个 LLM 服务请求都会经历两个阶段。第一个是预填充,它处理整个输入提示并生成第一个输出 Token ,第二个是解码,它一次生成其余的输出 Token 。由于输入提示的并行处理,预填充迭代具有较高的延迟,但会导致 GPU 计算饱和 ...

0 0 0 0 2025/01/16 arXiv:2403.02310v3 rui.cao

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)