SGD在 Transformer 上的显着余量比亚当的表现要差,但原因尚不清楚。在这项工作中,我们通过Hessian的镜头提供了一种解释:(i) Transformer 是“异质性”:参数块跨参数块的Hessian频谱差异很大,我们称之为“块异质性”的现象; (ii)异质性HAMPERS SGD:SGD在块异质性问题上的表现要比Adam差。为了验证(i)和(ii),我们检查了各种 Transformer ,CNN,MLP和二次问题,并发现SGD可以在没有阻碍异质性的问题上与Adam上的ADAM表现,但在存在异质性时的性能要比ADAM差 ...

0 0 0 0 2025/04/14 arXiv:2402.16788v4 IQ_QI

视觉问题回答(VQA)是一项挑战任务,结合了自然语言处理和计算机视觉技术,并逐渐成为多模式大语模型(MLLM)中的基准测试任务。我们调查的目的是概述VQA的开发以及及时性高的最新模型的详细描述。这项调查提供了对图像和文本的自然语言理解的最新综合,以及基于核心VQA任务的图像问题信息的知识推理模块 ...

0 0 0 0 2025/03/27 arXiv:2411.17558v1 IQ_QI

我们通过对学习的$ a $ a $ a $ $ b $矩阵的不对称分析的镜头进行联合学习的洛拉。为此,我们发现$ A $矩阵负责学习通用知识,而$ b $矩阵专注于捕获特定于客户的知识。基于这一发现,我们介绍了联合Share-a-a-Rank Apaptation(FEDSA-LORA),该改编(FEDSA-LORA)使用两个低级别训练的矩阵$ a $ a $ a $ and $ b $来对重量更新进行建模,但只有$ a $ a $矩阵与服务器共享用于聚合 ...

0 0 0 0 2025/03/04 arXiv:2410.01463v2 IQ_QI

低排名适应性(LORA)是预先训练的语言模型上最受欢迎的特定任务特定参数效率微调(PEFT)方法之一,其良好的性能和计算效率。洛拉(Lora)在每个冷冻预训练的模型模块的顶部注入了两个可训练的等级分解矩阵的产物。但是,当在保护联合学习(FL)的设置中应用于以下事实,LORA可能变得不稳定:1)数据异质性和多步局部更新的影响不可忽视,2)2)附加噪声在更新梯度上坚持更新以保证降低隐私(DP)可以降低效率(DP),以适应降低和3)的表现 ...

0 0 0 0 2025/03/04 arXiv:2403.12313v1 IQ_QI