jackson118的文档

jackson118

个性签名 ...

MLAE: Masked LoRA Experts for Parameter-Efficient Fine-Tuning

为了应对大型预训练模型的全面微调所需的广泛参数更新所带来的挑战，以低级别适应（LORA）为例，参数有效的微调（PEFT）方法已经出现。洛拉（Lora）简化了微调过程，但在低级别矩阵中的冗余水平和有限的效力中可能仍然在增加其排名中的有限效力。为了解决这些问题，一个自然的想法是增强低级矩阵学习过程的独立性和多样性 ...

0 0 0 0 2025/05/28 arXiv:2405.18897v2 jackson118

RandLoRA: Full-rank parameter-efficient fine-tuning of large models

低级适应性（LORA）及其变体在减少大型 Transformer 网络的可训练参数和内存要求方面显示出令人印象深刻的结果，同时保持微调性能。重量更新的低级别性质固有地限制了微调模型的表示功能，因此，在复杂的任务上可能会损害性能。这提出了一个关键的问题：当观察到洛拉和标准微调之间的性能差距时，是由于可训练的参数数量减少还是等级缺陷？本文旨在通过引入Randlora来回答这个问题，Randlora是一种参数有效的方法，该方法使用学习的低级别，不可验证的随机矩阵的线性组合执行全级更新 ...

0 0 0 0 2025/05/20 arXiv:2502.00987v2 jackson118

Sparse Low-rank Adaptation of Pre-trained Language Models

以参数有效的方式进行微调预训练的大型语言模型的有效性和效率得到了广泛研究。流行的低级适应方法（LORA）提供了一种显着的方法，假设适应过程本质上是低维的。尽管洛拉（Lora）表现出值得称赞的表现，但它以固定且不可变的内在等级实施，这可能并不总是是理想的选择 ...

0 0 0 0 2025/05/19 arXiv:2311.11696v1 jackson118

LoRI: Reducing Cross-Task Interference in Multi-Task Low-Rank Adaptation

低级适应性（LORA）已成为大型语言模型（LLMS）的流行参数效率微调（PEFT）方法，但它仍然引起了鲜明的开销，并且在多任务场景中受到参数干扰的影响。我们建议使用减少干扰（Lori）的洛拉（Lora），这是一种简单而有效的方法，可以将投影矩阵$ a $冻结，因为随机预测，并使用特定于任务的掩码对矩阵$ b $散布。这种设计大大减少了可训练参数的数量，同时保持了强大的任务性能 ...

0 1 1 1 2025/05/15 arXiv:2504.07448v1 jackson118

Each Rank Could be an Expert: Single-Ranked Mixture of Experts LoRA for Multi-Task Learning

低级别适应性（LORA）由于其效率和模块化而广泛用于将大型语言模型（LLM）调整为特定领域。同时，香草·洛拉（Vanilla Lora）在多任务场景中与任务冲突斗争。最近的作品通过将每个Lora模块视为专家来采用专家（MOE）的混合物，从而通过多个专业的Lora模块来减轻任务干扰 ...

0 0 0 0 2025/05/13 arXiv:2501.15103v1 jackson118

MM-Path: Multi-modal, Multi-granularity Path Representation Learning -- Extended Version

在智能运输中，开发有效的路径表示已变得越来越重要。尽管预先训练的路径表示模型显示出改善的性能，但它们主要集中在单个模态数据的拓扑结构上，即 ...

0 0 0 0 2025/04/18 arXiv:2411.18428v4 jackson118

DutyTTE: Deciphering Uncertainty in Origin-Destination Travel Time Estimation

鉴于起源（O），目的地（D）和出发时间（T）（t），旅行时间估计（TTE）中的不确定性量化旨在估算旅行时间的置信区间。准确地量化这种不确定性需要产生最可能的路径并评估沿路径的旅行时间不确定性。这涉及两个主要挑战：1）预测一条与地面真理保持一致的路径，以及2）对每个细分市场中旅行时间在不同条件下的总体不确定性的影响进行建模 ...

0 0 0 0 2025/04/06 arXiv:2408.12809v2 jackson118

Transforming Vision Transformer: Towards Efficient Multi-Task Asynchronous Learning

Vision Transformer的多任务学习（MTL）旨在通过同时解决多个任务来增强模型功能。最近的作品主要集中在设计专家（MOE）结构的混合物以及对低级适应性（LORA）进行有效执行多任务学习。然而，它们的刚性组合会阻碍MOE的优化和洛拉重新聚集的EF效率，从而导致了次优性能和低推理速度 ...

0 0 0 0 2025/03/28 arXiv:2501.06884v1 jackson118

Pareto Low-Rank Adapters: Efficient Multi-Task Learning with Preferences

可以通过帕累托前学习（PFL）方法来解决机器学习中的多任务权衡，该方法可以用单个模型参数化帕累托前（PF）。与传统的多任务学习（MTL）相反，PFL允许在推理过程中选择所需的操作点，该学习在培训之前对单个权衡进行了优化。但是，最近的PFL方法的可伸缩性，缓慢的收敛性和过度记忆需求受到了有限的影响，同时从偏好到客观空间表现出不一致的映射 ...

0 0 0 0 2025/03/28 arXiv:2407.08056v2 jackson118

MoSLD: An Extremely Parameter-Efficient Mixture-of-Shared LoRAs for Multi-Task Learning

最近，洛拉（Lora）已成为微调大型预培训模型的关键技术，但在多任务学习方案中的性能往往不足。相比之下，MOE架构为此问题提供了自然的解决方案。但是，它引入了挑战，例如跨多个领域的数据相互干扰以及知识忘记了各种任务 ...

0 0 0 0 2025/03/27 arXiv:2412.08946v1 jackson118