随着大型语言模型(LLM)通过缩放法则不断发展,来自人类反馈的强化学习(RLHF)因其出色的性能而受到广泛关注。然而,与预训练或微调单个模型不同,通过人类反馈(RLHF)扩展强化学习来训练大型语言模型给四个模型之间的协调带来了挑战。我们推出 OpenRLHF,这是一个能够实现高效 RLHF 扩展的开源框架 ...
由于计算和内存成本较高,提高基于 Transformer 的语言模型的部署效率一直具有挑战性。虽然 INT8 量化最近被证明可以有效降低内存成本和延迟,同时保持模型精度,但目前尚不清楚我们是否可以利用 INT4(使峰值硬件吞吐量翻倍)来进一步改善延迟。在本研究中,我们探讨了对语言模型采用 INT4 权重和激活 (W4A4) 量化的可行性 ...