- 名称
- ScalingFilter: Assessing Data Quality through Inverse Utilization of Scaling Laws
- 描述
高质量的数据对于大型语言模型的预训练性能至关重要。不幸的是,现有的质量过滤方法依赖于已知的高质量数据集作为参考,这可能会引入潜在的偏差并损害多样性。在本文中,我们提出了 ScalingFilter,这是一种基于在相同数据上训练的两种语言模型之间的困惑度差异来评估文本质量的新方法,从而消除了过滤过程中参考数据集的影响 ...