arxiv BaichuanSEED: Sharing the Potential of ExtensivE Data Collection and Deduplication by Introducing a Competitive Large Language Model Baseline

名称
BaichuanSEED: Sharing the Potential of ExtensivE Data Collection and Deduplication by Introducing a Competitive Large Language Model Baseline
首页
https://yiyibooks.cn/arxiv/2408.15079v1/index.html
原始地址
https://arxiv.org/pdf/2408.15079
描述
大型语言模型(LLM)的一般能力高度依赖于广泛的预训练数据集的组成和选择,这些数据集被多家机构视为商业机密。为了缓解这个问题,我们开源了普遍适用的数据处理流程的细节,并通过引入有竞争力的 LLM 基线来验证其有效性和潜力。具体来说,数据处理管道包括广泛的收集以扩大规模和重新加权以提高质量 ...