rui.cao的文档

rui.cao

个性签名 ...

Checkmate: Breaking the Memory Wall with Optimal Tensor Rematerialization

我们将交易DNN培训时间和内存需求的问题正式化为张量重新布置优化问题，这是对先前检查点策略的概括。我们介绍了Checkmate，该系统可以在合理的时间（一个小时）（在一个小时的时间内）使用现成的MILP求解器或具有近似算法的近乎最佳的时间表来解决最佳的重新布置时间表，然后使用这些时间表来加速数百万培训迭代。我们的方法缩放到复杂，现实的体系结构，并通过使用基于促进符的基于配置文件的成本模型来了解硬件 ...

0 0 0 0 2025/02/06 arXiv:1910.02653v3 rui.cao

REINFORCE++: A Simple and Efficient Approach for Aligning Large Language Models

人类反馈强化学习 (RLHF) 已成为使大型语言模型与人类偏好保持一致的关键方法，通过近端策略优化 (PPO)、直接偏好优化 (DPO)、REINFORCE 留一法等方法见证了算法的快速演变(RLOO)、ReMax 和组相对策略优化 (GRPO)。我们提出了 REINFORCE++，这是经典 REINFORCE 算法的增强变体，它结合了 PPO 的关键优化技术，同时消除了对批评网络的需要。 REINFORCE++ 实现了三个主要目标：(1) 简单性 (2) 增强训练稳定性，以及 (3) 减少计算开销 ...

0 0 0 0 2025/01/26 arXiv:2501.03262v1 rui.cao

Checkmate: Breaking the Memory Wall with Optimal Tensor Rematerialization

REINFORCE++: A Simple and Efficient Approach for Aligning Large Language Models

Augmenting Math Word Problems via Iterative Question Composing

CodeMind: A Framework to Challenge Large Language Models for Code Reasoning

Synthetic Dialogue Dataset Generation using LLM Agents

A Thorough Examination of Decoding Methods in the Era of LLMs

Blockwise Parallel Decoding for Deep Autoregressive Models

Flex Attention: A Programming Model for Generating Optimized Attention Kernels

vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving

vAttention: Dynamic Memory Management for Serving LLMs without PagedAttention

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您在阅读时勇敢地改正翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）