Am-Deepseek-R1启动是一个大规模数据集,具有一般推理任务的思维痕迹,由高质量和挑战性的推理问题组成。这些问题是从多种开源数据集中收集的,受到语义重复数据删除和细致的清洁,以消除测试集污染。数据集中的所有响应都从推理模型(主要是DeepSeek-R1)中提取,并具有严格的验证程序 ...
由于面向代理的预训练数据缺乏,基于LLM的自主剂通常依赖于复杂的提示或广泛的微调,这通常无法引入新的功能,同时保持强大的可推广性。我们介绍了Hephaestus-Forge,这是第一个旨在增强LLM代理在API函数调用,内在推理和计划中以及适应环境反馈的大规模训练之前的大规模训练前语料库。 Hephaestus-Forge包括103B特定于特定于代理的数据,其中包括76,537个API,包括既有工具文档,都可以介绍API功能的知识和功能呼叫轨迹以增强内在推理 ...
语言模型预培训语料库中存在的样式,域和质量水平的大量多样性对于发展通用模型功能至关重要,但是在这些异构数据源中,有效地学习和部署正确的行为是具有挑战性的。为了解决这个问题,我们提出了一种新方法,称为元数据调节,然后冷却(MECO),以在预训练期间结合其他学习提示。 Meco首先提供元数据(e ...
现有的幽默数据集和评估主要集中在英语上,在诸如中文等非英语语言中为文化细微差别的幽默留下了有限的资源。为了解决这一差距,我们构建了Chumor,这是第一个超过现有幽默数据集大小的中国幽默解释数据集。 Chumor源自Ruo Zhi Ba,这是一个类似于中国Reddit的平台,以分享具有智力挑战性和文化特定的笑话而闻名 ...
语音语言模型(SpeechLMS)接受语音输入并产生语音输出,与基于文本的大语言模型(LLMS)相比,可以更自然的人类计算机互动。开发语音L的传统方法受到无监督语音数据的可用性和并行语音文本数据的限制,这些数据的丰富性明显不如文本预训练数据,从而限制了它们作为LLMS的可扩展性。我们提出了一种新颖的方法来扩展语音文本预训练,以利用从文本语料库得出的大规模合成交织数据,从而消除了对平行语音文本数据集的需求 ...
我们介绍了GLM-4-Voice,这是一个聪明且类似人类的端到端口语聊天机器人。它支持中文和英语,进行实时的语音对话,并根据用户说明来不同,例如情感,语调,语音率和方言。 GLM-4-VOICE使用超低比特量(175bps),单代码书籍 Token ,带有12 ...
得益于对大量文本语料库的广泛训练,大型语言模型(LLM)在生成文本方面表现出了非凡的能力。然而, LLM 也可能会从其培训数据的多样性和敏感性质中获得不需要的行为,其中可能包括受版权保护和私人内容。机器遗忘已被引入作为一种可行的解决方案,以消除此类有问题的内容的影响,而无需进行昂贵且耗时的再培训 ...
GPT-4 和 ChatGPT 等聊天机器人现在正在为数百万用户提供服务。尽管它们被广泛使用,但仍然缺乏公共数据集来展示这些工具在实践中如何被用户群体使用。为了弥补这一差距,我们为在线用户提供了免费访问 ChatGPT 的机会,以换取他们肯定、同意的选择,以匿名方式收集他们的聊天记录和请求标头 ...
大语言模型 (LLM) 中的情感认知对于提高社交媒体、人机交互和心理健康评估等各种应用的性能至关重要。我们探索了当前的研究格局,主要围绕情感分类、情感丰富的响应生成和心理理论评估,同时承认对注释数据的依赖和情感处理的复杂性等挑战。在本文中,我们详细调查了 LLM 在情绪认知方面的最新进展 ...
大型语言模型 (LLM) 的最新进展凸显了对稳健、全面且具有挑战性的基准的需求。然而,评估他们的情商(EI)的研究相当有限。现有的基准有两个主要缺点:首先,它们主要关注情绪识别,忽视了情绪调节和通过情绪理解促进思维等基本的 EI 能力;其次,它们主要是根据现有数据集构建的,其中包括频繁模式、显式信息和注释错误,导致评估不可靠 ...