在下游任务上微调大型预训练语言模型已成为nlp的重要范例。然而,常见的做法是对预训练模型中的所有参数进行微调,当存在大量下游任务时,这会变得令人望而却步。因此,提出了许多微调方法,以参数有效的方式学习预训练权重的增量更新 ...
0 0 0 2025/04/30 arXiv:2303.10512v2 Cane_Wu
对比语言图像预训练(剪辑)是建立现代视觉基础模型的重要组成部分。尽管剪辑在下游任务上表现出了显着的零射击性能,但多模式特征空间仍然存在模态差距,这是图像和文本特征簇和下游任务性能之间的差距。尽管现有的作品试图通过修改预培训或微调来解决模式差距,但他们在较大的数据集或零照片性能的降解方面遇到了沉重的培训成本 ...
0 0 0 2025/04/30 arXiv:2504.12717v1 likelc
信息检索(IR)系统传统上旨在最大化基于排名(例如精度或NDCG)的指标。但是,排名操作的非差异性可阻止最先进的神经IR模型中此类指标的直接优化,这些指标完全依赖于计算有意义的梯度的能力。为了解决这个缺点,我们提出了Smoothi,这是秩指标的平滑近似值,它是设计IR指标可区分近似值的基本构件 ...
0 0 0 2025/04/30 arXiv:2105.00942v1 hokirn
大型深度学习模型已在各种任务中实现了最先进的表现。这些模型通常需要分布式系统以进行有效的培训和推理。分布式模型执行的基本构建块是层内并行操作员 ...
0 0 0 2025/04/30 arXiv:2503.20313v3 tianjianjjj
用于生成AI的大型语言模型(LLM)取得了显着的进步,并发展成为各个领域和应用程序广泛采用的复杂和多功能工具。但是,由其大量参数造成的大量内存开销,再加上注意机制的高计算需求,在实现LLM推理服务的低潜伏期和高吞吐量方面构成了重大挑战。在开创性研究的推动下,最近的进步已大大加快了这一领域的进步 ...
0 0 0 2025/04/30 arXiv:2504.19720v1 sealaes
在许多Web应用程序中,基于深度学习的CTR预测模型(简短的CTR模型)被广泛采用。传统的深层CTR模型以静态方式学习模式,即 ...
0 0 0 2025/04/30 arXiv:2203.16218v3 Leeyhom
利用稀疏性对于优化大型语言模型推理至关重要。然而,现代 LLM 采用 SiLU 作为激活函数,表现出最小的激活稀疏性。最近的研究提出用 ReLU 代替 SiLU,以引起显着的激活稀疏性,并且通过微调表明下游任务精度不会下降 ...
0 0 0 2025/04/30 arXiv:2411.12692v2 Daenerays
大约最近的邻居搜索(ANNS)是向量数据库和AI基础架构中的一个基本问题。最近基于图的ANN算法以实用效率达到了高度搜索的准确性。尽管取得了进步,但由于基于图形的搜索的随机存储器访问模式和向量距离的高计算开销,这些算法仍然面临生产中性能瓶颈 ...
0 0 0 2025/04/30 arXiv:2503.17911v1 李大人

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)