专家混合 (MoE) 架构最近在大型语言模型 (LLM) 领域越来越受欢迎,因为它们能够显着减少训练和推理开销。然而,MoE 架构面临着挑战,例如分配给每个专家的 Token 数量存在显着差异,以及专家之间的同质化趋势,这对模型的语义生成能力产生不利影响。在本文中,我们介绍了 LocMoE+,这是低开销 LocMoE 的改进版本,包含以下增强功能:(1)量化和定义专家和 Token 之间的亲和力 ...
提示和情境学习(ICL)已成为大型语言模型(LLM)的有效学习范例。然而,LLM 面临着提示的脆弱性和提示中的各种偏见因素,包括但不限于格式、语言选择和 ICL 示例。为了解决导致意外性能下降的问题,我们开发了校准方法来减轻这些偏差的影响,同时恢复 LLM 性能 ...
提示调优(PT)将少量可训练的软(连续)提示向量附加到语言模型(LM)的输入中,在参数高效微调(PEFT)的各种任务和模型中显示出有希望的结果。 PT 从其他 PEFT 方法中脱颖而出,因为它用更少的可训练参数保持了有竞争力的性能,并且不会随着模型大小的扩展而大幅扩展其参数。然而,PT 引入了额外的软提示标记,导致输入序列更长,由于 Transformer 的二次复杂度,这显着影响了训练和推理时间 ...
如今,像LLaMA这样的开源大型语言模型已经出现。最近的发展结合了监督微调(SFT)和强化学习微调(RLFT),使这些模型与人类目标保持一致。然而,SFT 方法平等地对待所有具有混合质量的训练数据,而 RLFT 方法需要高质量的成对或基于排序的偏好数据 ...
虚拟竞价在两次结算的电力市场中发挥着重要作用,因为它可以减少日前市场和实时市场之间的差异。可再生能源的普及增加了电价的波动性,因此准确的预测对于虚拟投标人至关重要,从而减少不确定性并实现利润最大化。本研究提出了一种基于 Transformer 的深度学习模型,用于预测 ERCOT(德克萨斯州电力可靠性委员会)市场中实时电价与日前电价之间的价差 ...
多模态大型语言模型(MLLM)的快速发展促进了计算机视觉从专用模型向通用基础模型的转变。尽管如此,评估 MLLM 的低级视觉感知和理解能力仍然存在不足。为了解决这一差距,我们提出了 Q-Bench,这是一个整体基准,旨在系统地评估 MLLM 在三个领域的潜在能力:低级视觉感知、低级视觉描述和整体视觉质量评估 ...
大型语言模型 (LLM) 最近在一系列自然语言处理任务中推动了显着的性能改进。在预训练和指令调整过程中获得的事实知识可用于各种下游任务,例如问答和语言生成。与显式存储事实知识的传统知识库 (KB) 不同,LLM 隐式地将事实存储在其参数中 ...
我们研究语言模型(LM)的持续训练和监督微调(SFT),以有效利用长上下文信息。我们首先建立一个可靠的评估协议来指导模型开发——我们使用一组广泛的长上下文任务,而不是困惑或简单的大海捞针(NIAH)测试,并在 SFT 后使用指令数据评估模型因为这可以更好地揭示长上下文能力。在我们强大的评估的支持下,我们进行了彻底的实验来决定继续预训练的数据组合、指令调整数据集和许多其他设计选择 ...