低级适应性(LORA)及其变体在减少大型 Transformer 网络的可训练参数和内存要求方面显示出令人印象深刻的结果,同时保持微调性能。重量更新的低级别性质固有地限制了微调模型的表示功能,因此,在复杂的任务上可能会损害性能。这提出了一个关键的问题:当观察到洛拉和标准微调之间的性能差距时,是由于可训练的参数数量减少还是等级缺陷?本文旨在通过引入Randlora来回答这个问题,Randlora是一种参数有效的方法,该方法使用学习的低级别,不可验证的随机矩阵的线性组合执行全级更新 ...
以参数有效的方式进行微调预训练的大型语言模型的有效性和效率得到了广泛研究。流行的低级适应方法(LORA)提供了一种显着的方法,假设适应过程本质上是低维的。尽管洛拉(Lora)表现出值得称赞的表现,但它以固定且不可变的内在等级实施,这可能并不总是是理想的选择 ...
低级适应性(LORA)已成为大型语言模型(LLMS)的流行参数效率微调(PEFT)方法,但它仍然引起了鲜明的开销,并且在多任务场景中受到参数干扰的影响。我们建议使用减少干扰(Lori)的洛拉(Lora),这是一种简单而有效的方法,可以将投影矩阵$ a $冻结,因为随机预测,并使用特定于任务的掩码对矩阵$ b $散布。这种设计大大减少了可训练参数的数量,同时保持了强大的任务性能 ...
低级别适应性(LORA)由于其效率和模块化而广泛用于将大型语言模型(LLM)调整为特定领域。同时,香草·洛拉(Vanilla Lora)在多任务场景中与任务冲突斗争。最近的作品通过将每个Lora模块视为专家来采用专家(MOE)的混合物,从而通过多个专业的Lora模块来减轻任务干扰 ...
在智能运输中,开发有效的路径表示已变得越来越重要。尽管预先训练的路径表示模型显示出改善的性能,但它们主要集中在单个模态数据的拓扑结构上,即 ...
鉴于起源(O),目的地(D)和出发时间(T)(t),旅行时间估计(TTE)中的不确定性量化旨在估算旅行时间的置信区间。准确地量化这种不确定性需要产生最可能的路径并评估沿路径的旅行时间不确定性。这涉及两个主要挑战:1)预测一条与地面真理保持一致的路径,以及2)对每个细分市场中旅行时间在不同条件下的总体不确定性的影响进行建模 ...
Vision Transformer的多任务学习(MTL)旨在通过同时解决多个任务来增强模型功能。最近的作品主要集中在设计专家(MOE)结构的混合物以及对低级适应性(LORA)进行有效执行多任务学习。然而,它们的刚性组合会阻碍MOE的优化和洛拉重新聚集的EF效率,从而导致了次优性能和低推理速度 ...
可以通过帕累托前学习(PFL)方法来解决机器学习中的多任务权衡,该方法可以用单个模型参数化帕累托前(PF)。与传统的多任务学习(MTL)相反,PFL允许在推理过程中选择所需的操作点,该学习在培训之前对单个权衡进行了优化。但是,最近的PFL方法的可伸缩性,缓慢的收敛性和过度记忆需求受到了有限的影响,同时从偏好到客观空间表现出不一致的映射 ...
最近,洛拉(Lora)已成为微调大型预培训模型的关键技术,但在多任务学习方案中的性能往往不足。相比之下,MOE架构为此问题提供了自然的解决方案。但是,它引入了挑战,例如跨多个领域的数据相互干扰以及知识忘记了各种任务 ...
以前基于专家混合(MOE)的多任务密集预测方法已经获得了出色的表现,但他们忽略了明确建模所有任务之间全球关系的重要性。在本文中,我们提出了一种以多任务密集预测为重点的新型方法,称为低级专家(MLORE)。为了建模全局任务关系,MLORE添加了原始MOE结构的通用卷积路径,每个任务功能都可以通过此路径进行显式参数共享 ...