语言模型(LM)是自然语言处理的强大工具,但当它们很小时时,通常很难生成连贯且流畅的文本。即使经过大量训练,具有大约 125M 参数的模型(例如 GPT-Neo(小)或 GPT) -2(小))也很少能生成几个单词之外的连贯一致的英语文本。这就提出了一个问题:生成连贯英文文本的能力是否只出现在更大的规模(具有数亿个参数或更多)和复杂架构(具有全球高度关注)的情况下... ...
数据稀缺一直是开放领域社会对话领域长期存在的问题。为了解渴,我们推出了 SODA:第一个公开可用的百万级高质量社交对话数据集。通过将知识图中的社会常识知识置于语境中,我们能够从大型语言模型中提取出极其广泛的社会互动 ...
这项研究在大型语言模型(LLM)的背景下调查了“被遗忘权”的概念。我们探索机器取消学习作为关键解决方案,重点关注预训练模型——这是一个明显研究不足的领域。我们的研究描绘了预训练 LLM 中机器遗忘的综合框架,包括对七种不同遗忘方法的批判性分析 ...
大量数据和计算资源已经证明了大型语言模型 (LLM) 的强大功能。然而,语言模型在移动设备上的应用面临着计算和内存成本的巨大挑战,即迫切需要高性能的微型语言模型。受限于高度复杂的训练过程,优化语言模型有很多细节很少被仔细研究 ...
最近,大型语言模型(LLM)取得了重大进展,特别是在英语方面。这些进步使这些 LLM 能够以前所未有的准确性和流畅性理解和执行复杂的指令。然而,尽管取得了这些进步,中文指令调优的发展仍然存在明显差距 ...