((lm)可以进行生成式查询(通过从其输出分布中采样答案)(或区分性查询(通过使用它们对一组候选输出进行评分或排名)。)。 lm 预测?我们引入了一种新的、无需训练的、博弈论的语言模型解码过程 ... ...
我们继续研究由 \textbf{TinyStories} 发起的基于 Transformer 的小型语言模型的威力(一个可以产生连贯英语的 1000 万参数模型)以及 \textbf{phi-1} 的后续工作,一个 13 亿参数模型,Python 编码性能接近最先进。后一项工作建议使用现有的大型语言模型(LLM)来生成“教科书质量”的数据,作为与传统网络数据相比增强学习过程的一种方式 ...