arxiv ShortGPT: Layers in Large Language Models are More Redundant Than You Expect

名称
ShortGPT: Layers in Large Language Models are More Redundant Than You Expect
首页
https://yiyibooks.cn/arxiv/2403.03853v2/index.html
原始地址
https://arxiv.org/abs/2403.03853
描述
随着大型语言模型 (LLM) 性能的不断提高,其规模也显着扩大,当前的 LLM 包含数十亿甚至数万亿的参数。然而,在这项研究中,我们发现LLM的许多层表现出高度相似性,并且某些层在网络功能中发挥的作用可以忽略不计。基于这一观察,我们定义了一个称为区块影响力(BI)的指标来衡量 LLM 中每一层的重要性 ...