得益于对大量文本语料库的广泛训练,大型语言模型(LLM)在生成文本方面表现出了非凡的能力。然而, LLM 也可能会从其培训数据的多样性和敏感性质中获得不需要的行为,其中可能包括受版权保护和私人内容。机器遗忘已被引入作为一种可行的解决方案,以消除此类有问题的内容的影响,而无需进行昂贵且耗时的再培训 ...

0 0 0 0 2024/11/19 arXiv:2410.16454v1 mlp

GPT-4 和 ChatGPT 等聊天机器人现在正在为数百万用户提供服务。尽管它们被广泛使用,但仍然缺乏公共数据集来展示这些工具在实践中如何被用户群体使用。为了弥补这一差距,我们为在线用户提供了免费访问 ChatGPT 的机会,以换取他们肯定、同意的选择,以匿名方式收集他们的聊天记录和请求标头 ...

0 0 0 0 2024/11/13 arXiv:2405.01470v1 mlp

大语言模型 (LLM) 中的情感认知对于提高社交媒体、人机交互和心理健康评估等各种应用的性能至关重要。我们探索了当前的研究格局,主要围绕情感分类、情感丰富的响应生成和心理理论评估,同时承认对注释数据的依赖和情感处理的复杂性等挑战。在本文中,我们详细调查了 LLM 在情绪认知方面的最新进展 ...

0 0 0 0 2024/09/23 arXiv:2409.13354v1 mlp

大型语言模型 (LLM) 的最新进展凸显了对稳健、全面且具有挑战性的基准的需求。然而,评估他们的情商(EI)的研究相当有限。现有的基准有两个主要缺点:首先,它们主要关注情绪识别,忽视了情绪调节和通过情绪理解促进思维等基本的 EI 能力;其次,它们主要是根据现有数据集构建的,其中包括频繁模式、显式信息和注释错误,导致评估不可靠 ...

0 0 0 0 2024/09/12 arXiv:2402.12071v3 mlp

大型语言模型(LLM)最近展示了其在语言理解方面的非凡能力。然而,如何全面评估LLM的情感能力仍然是一个挑战。本文研究了 LLM 检测文本模式中的情绪并对​​其做出反应的能力 ...

0 0 0 0 2024/09/10 arXiv:2409.02370v1 mlp

我们引入 OLMoE,这是一种完全开放、最先进的语言模型,利用稀疏专家混合 (MoE)。 OLMoE-1B-7B 有 70 亿个 (B) 参数,但每个输入 Token 仅使用 1B。我们在 5 万亿个 Token 上对其进行预训练,并进一步对其进行调整以创建 OLMoE-1B-7B-Instruct ...

0 0 1 3 2024/09/05 arXiv:2409.02060v1 mlp

对于混合专家(MoE)模型,不平衡的专家负载将导致路由崩溃或计算开销增加。现有方法通常采用辅助损失来促进负载平衡,但较大的辅助损失会在训练中引入不可忽略的干扰梯度,从而损害模型性能。为了控制负载平衡,同时在训练过程中不产生不需要的梯度,我们提出了无损平衡,其特点是辅助无损负载平衡策略 ...

0 0 0 0 2024/09/02 arXiv:2408.15664v1 mlp

大型语言模型(LLM)的一般能力高度依赖于广泛的预训练数据集的组成和选择,这些数据集被多家机构视为商业机密。为了缓解这个问题,我们开源了普遍适用的数据处理流程的细节,并通过引入有竞争力的 LLM 基线来验证其有效性和潜力。具体来说,数据处理管道包括广泛的收集以扩大规模和重新加权以提高质量 ...

0 0 0 0 2024/08/29 arXiv:2408.15079v1 mlp

将代码包含在预训练数据混合物中,即使对于不是专门为代码设计的模型,也已成为 LLM 预训练中的常见做法。虽然从业者之间有一个共识,即代码数据在一般 LLM 的表现中起着至关重要的作用,但分析代码对非代码任务的精确影响的工作却很有限。在这项工作中,我们系统地研究了代码数据对总体性能的影响 ...

0 0 0 0 2024/08/22 arXiv:2408.10914v1 mlp

我们发现,神经语言模型的交叉熵损失曲线在经验上遵循学习率(LR)在训练步骤($s$)上退火的缩放法则:$$L(s) = L_0 + A\cdot S_1^{ -\alpha} - C\cdot S_2$$ 其中 $S_1$ 是前向区域,$S_2$ 是学习率退火区域。该公式考虑了两个因素:(1)定义为典型缩放定律的前向缩放,以及(2)LR 退火带来的额外损耗下降。因此,这个公式可以描述每一步的完整损失曲线,而不是训练结束时的单个损失点 ...

0 0 0 0 2024/08/21 arXiv:2408.11029v1 mlp

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)