本文探索了一种提高语言模型零样本学习能力的简单方法。我们表明,指令调优——对通过指令描述的任务集合进行语言模型的参数——可以显着提高未见过的任务的零样本我们采用137B参​​数预训练语言模型,并针对通过语言指令模板表达的60多个NLP任务对此进行指令调整... ...
0 0 0 2024/11/23 arXiv:2109.01652v5 seumi
过度参数化的 Transformer 网络在各种自然语言处理任务(例如机器翻译、语言建模和问答)中获得了最先进的结果。这些模型包含数亿个参数,需要大量的计算,并且容易出现过度拟合。在这项工作中,我们探索了 LayerDrop,一种结构化的 dropout 形式,它在训练期间具有正则化效果,并允许在推理时进行有效的修剪 ...
0 0 20 2024/11/23 arXiv:1909.11556v1 milkii
基于代理的建模和仿真已发展成为对复杂系统进行建模的强大工具,提供对不同代理之间的突发行为和交互的见解。将大型语言模型集成到基于代理的建模和仿真中,为增强仿真能力提供了一条有前途的途径。本文调查了在基于代理的建模和仿真中使用大型语言模型的前景,研究了它们的挑战和有希望的未来方向 ...
0 0 0 2024/11/23 arXiv:2312.11970v1 parsifalster
定位和修复软件故障是软件开发中一项耗时且耗费资源的任务。传统的故障定位方法,例如基于频谱的故障定位(SBFL),依赖于测试覆盖数据的统计分析,但往往精度较低。基于学习的技术虽然更有效,但需要大量的训练数据,并且计算成本可能很高 ...
0 0 0 2024/11/23 arXiv:2409.13642v1 bamanzi
基于Transformer的大型语言模型(LLM)已评估知识库、人机界面和动态代理等不同领域,有望实现通用人工智能(AGI)的巨大进步。然而,目前的 LLM 主要是针对短文本的片段进行预训练,这损害了他们处理实际场景中经常遇到的长上下文提示的有效性。本文对基于 Transformer 的 LLM 架构的最新进展进行了全面调查,旨在增强 LLM 在整个模型生命周期(从预到训练推理)中的长上下文能力. ...
0 0 0 2024/11/23 arXiv:2311.12351v2 seven
我们介绍 ChatGLM,这是我们一直在开发的一个不断发展的大型语言模型家族。本报告主要关注 GLM-4 语言系列,包括 GLM-4、GLM-4-Air 和 GLM-4-9B。它们代表了我们最有能力的模型,这些模型接受了从前三代 ChatGLM 中获得的所有见解和经验教训 ...
0 0 0 2024/11/23 arXiv:2406.12793v2 winruner
本文调查了快速发展的指令调优(IT)领域的研究工作,这是增强大型语言模型(LLM)功能和可控性的关键技术。指令调优是指以监督方式由\textsc{(instruction ,output)}对组成的数据集上进一步训练LLM的过程,它弥补了LLM的下一个单词预测目标与用户的目标之间的差距。LLM人类生存指示。在这项工作中,我们对文献进行了系统回顾,包括IT的一般方法、IT数据集的构建、IT模型在不同 ...
0 0 0 2024/11/23 arXiv:2308.10792v7 winruner
当用户与推荐系统(RecSys)交互时,当前情况(例如时间、位置和环境)会显着影响他们的偏好。情境作为交互的背景,用户和项目之间的关系随着情境的变化而变化。然而,现有的 RecSys 将情况、用户和项目视为同一级别 ...
0 0 0 2024/11/23 arXiv:2403.18317v1 winruner

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)