LoRA 等参数高效调整方法可以通过调整一小部分参数来实现与模型调整相当的性能。然而,仍然需要大量的计算资源,因为这个过程涉及计算梯度并在整个模型中执行反向传播。最近,人们致力于利用无导数优化方法来避免梯度计算,并在少样本设置中展示增强的鲁棒性水平 ...

0 0 0 0 2024/06/27 arXiv:2403.01754v1 liaoxin11

最近,纯基于 Transformer 的模型在图像分类和检测等视觉任务中表现出了巨大的潜力。然而, Transformer 网络的设计具有挑战性。据观察,深度、嵌入尺寸和头部数量可以在很大程度上影响视觉变换器的性能 ...

0 0 0 0 2024/06/26 arXiv:2107.00651v1 liaoxin11

视觉模型的规模在过去几年中呈指数级增长,尤其是在 Vision Transformer 出现之后。这推动了参数高效调整方法的开发,例如学习适配器层或视觉提示标记,这些方法允许训练一小部分模型参数,而从预训练中获得的绝大多数参数被冻结。然而,设计适当的调整方法并非易事:人们可能需要尝试一长串的设计选择,更不用说每个下游数据集通常需要定制设计 ...

0 0 0 0 2024/06/26 arXiv:2206.04673v2 liaoxin11

大型基础模型变得无处不在,但从头开始训练它们的成本却高得令人望而却步。因此,有效地使这些强大的模型适应下游任务变得越来越重要。在本文中,我们研究了一种用于下游任务适应的原则性微调范式——正交微调(OFT) ...

0 0 0 0 2024/06/24 arXiv:2311.06243v2 liaoxin11

低阶自适应( lora)最近在微调基础模型方面引起了人们的广泛兴趣。它通过合并低秩矩阵$ a $ a $ a $ b $来表示权重变化,有效地减少了可训练参数的数量,即... ...

0 0 0 0 2025/04/20 arXiv:2405.03003v1 liaoxin11

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)