微调大语言模型(LLMS)在计算上是密集的,因为它需要更新所有参数。低级适应(LORA)通过仅修改一部分权重来提高效率,但引入了表达性和计算成本之间的权衡:较低的排名降低了资源,但限制了表现力,而较高的等级则在增加成本时提高表达能力。尽管自适应洛拉技术最近取得了进步,但现有方法未能提供理论基础来优化模型性能和效率之间的权衡 ...
传统的低级适应(LORA)方法采用固定等级,尽管具有异质学习动力学,但在 Transformer 层和注意力头之间施加了统一的适应性。本文介绍了自适应等级动态洛拉(ARD-lora),这是一个新颖的框架,可通过可学习的缩放系数自动化等级分配。这些因素是通过元观点平衡任务性能和参数效率进行了优化的,并结合了$ \ ell_1 $ sparsity的最低等级和稳定等级转换的总变化正则化 ...
低级适应(LORA)为联合语言模型的经过微调提供了有效的替代方法,可大大降低计算成本。通过调整每个客户端的等级,Federated Lora可以启用灵活的资源分配。但是,我们观察到,客户之间的异质等级导致性能不稳定 ...
长期以来,在古典物理学中,更热的系统比冷却器更快地平衡了MPEMBA效应。在过去的几年中,在理解其在古典和量子系统中的发生时,已经取得了重大的理论和实验进步。在这篇综述中,我们提供了量子系统中MPEMBA效应的简洁概述,重点是开放和孤立的动力学,从而导致这种异常的非平衡现象的明显表现 ...
这项工作旨在解决文本到SQL任务中具有挑战性的异质图编码问题。以前的方法通常以节点为中心,仅利用不同的权重矩阵来参数化边缘类型,其中1)忽略边缘拓扑结构中的丰富语义,以及2)无法区分每个节点的局部和非局部关系。为此,我们提出了一个线图增强了文本到SQL(LGESQL)模型,以挖掘基本的关系特征,而无需构造元路径 ...
事件因果关系识别(ECI)旨在检测文本上下文中事件之间的因果关系。现有的ECI模型主要依赖于监督方法,依赖于大规模注释的数据。尽管大型语言模型(LLMS)使ECI呈零摄,但它们倾向于因果幻觉而建立虚假的因果关系 ...
索引是增强检索增强生成 (RAG) 系统性能的重要一步。然而,现有的方法基于语义相似性(相似性)或相关信息(相关性)来组织数据,但没有全面涵盖这两个视角。我们的分析表明,仅对一种视角进行建模会导致知识综合不足,导致在需要多跳推理的复杂任务上表现不佳 ...
在对象目标导航中,代理使用视觉和空间信息通过类别标签标识的对象导航。以前,仅基于网络的方法通常依靠历史数据来进行对象亲和力估计,缺乏对新环境和看不见的目标的适应性。同时,采用大型语言模型(LLM)作为规划者或代理人,尽管提供广泛的知识基础,但具有成本范围,并且缺乏针对性的历史经验 ...