稀疏激活在推理中选择性地仅激活一组依赖于输入的神经元,是一种有用的技术,可以降低大型语言模型 (LLM) 的计算成本,而无需重新训练或适应工作。然而,它是否可以应用于最近出现的小语言模型(SLM)仍然值得怀疑,因为 SLM 通常比 LLM 更少过度参数化。在本文中,我们的目标是在 SLM 中实现稀疏激活 ...
稀疏激活在推理中选择性地仅激活一组依赖于输入的神经元,是一种有用的技术,可以降低大型语言模型 (LLM) 的计算成本,而无需重新训练或适应工作。然而,它是否可以应用于最近出现的小语言模型(SLM)仍然值得怀疑,因为 SLM 通常比 LLM 更少过度参数化。在本文中,我们的目标是在 SLM 中实现稀疏激活 ...