语言模型(LM)是自然语言处理的强大工具,但当它们很小时时,通常很难生成连贯且流畅的文本。即使经过大量训练,具有大约 125M 参数的模型(例如 GPT-Neo(小)或 GPT) -2(小))也很少能生成几个单词之外的连贯一致的英语文本。这就提出了一个问题:生成连贯英文文本的能力是否只出现在更大的规模(具有数亿个参数或更多)和复杂架构(具有全球高度关注)的情况下... ...

0 0 0 0 2024/11/08 arXiv:2305.07759v2 mlp

数据稀缺一直是开放领域社会对话领域长期存在的问题。为了解渴,我们推出了 SODA:第一个公开可用的百万级高质量社交对话数据集。通过将知识图中的社会常识知识置于语境中,我们能够从大型语言模型中提取出极其广泛的社会互动 ...

0 0 0 0 2024/04/08 arXiv:2212.10465v3 mlp

这项研究在大型语言模型(LLM)的背景下调查了“被遗忘权”的概念。我们探索机器取消学习作为关键解决方案,重点关注预训练模型——这是一个明显研究不足的领域。我们的研究描绘了预训练 LLM 中机器遗忘的综合框架,包括对七种不同遗忘方法的批判性分析 ...

0 0 0 0 2024/04/07 arXiv:2402.15159v2 mlp

大量数据和计算资源已经证明了大型语言模型 (LLM) 的强大功能。然而,语言模型在移动设备上的应用面临着计算和内存成本的巨大挑战,即迫切需要高性能的微型语言模型。受限于高度复杂的训练过程,优化语言模型有很多细节很少被仔细研究 ...

0 0 0 0 2024/04/03 arXiv:2402.02791v2 mlp

最近,大型语言模型(LLM)取得了重大进展,特别是在英语方面。这些进步使这些 LLM 能够以前所未有的准确性和流畅性理解和执行复杂的指令。然而,尽管取得了这些进步,中文指令调优的发展仍然存在明显差距 ...

0 0 1 3 2024/03/29 arXiv:2403.18058v1 mlp

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)