通过稀疏激活大语模型(LLMS)的专家来降低推理成本的混合物(MOE)。尽管减少了这种减少,但MOE的大量专家仍然使他们的服务昂贵。在本文中,我们通过修剪Moes来研究如何解决这个问题 ...
0 0 0 2025/05/07 arXiv:2409.06211v1 haiyao
由于大型语言模型(LLMS)在各种应用程序中都显示出它们的功能,因此培训定制的LLMS已成为现代企业至关重要的。但是,由于LLM培训的复杂性(需要大量的计算资源和大量培训时间)在培训过程中是不可避免的。这些故障导致大量浪费资源和时间,强调了有效,有效的失败诊断以降低LLM培训成本的关键需求 ...
0 0 0 2025/05/07 arXiv:2503.20263v1 imp1984
修剪包含一系列旨在增加神经网络(NNS)稀疏性的技术。通常可以将这些技术构建为最小化损失功能,但受$ L_0 $纳入约束的约束。本文介绍了Connect,这是一种用于稀疏NN训练的新型可区分正规化程序,可确保输入层和输出层之间的连通性 ...
0 0 0 2025/05/07 arXiv:2502.00744v1 haiyao
体现的基础模型正在通过几次训练后训练来越来越关注其零射门的概括,可伸缩性和对新任务的适应性。但是,现有模型在很大程度上依赖于现实世界中的数据,这是昂贵且劳动密集型的收集数据。合成数据提供了一种具有成本效益的替代方案,但其潜力在很大程度上仍未得到充满异常 ...
0 0 0 2025/05/07 arXiv:2505.03233v1 蔡明方
基于高斯 - 拼图的新型视图合成的最新努力可以实现逼真的渲染。但是,由于初始化和过度拟合的浮点数,这种能力在稀疏视图方案中受到限制。最新的深度估计和一致性进展可以为密集的点云提供很少的视图。但是,所产生的姿势准确性是次优的。在这项工作中,我们提出了SPARS3R,它结合了从深度估计中从结构上估计和致密点云中准确姿势估计的优势 ...
0 0 0 2025/05/07 arXiv:2411.12592v1 zhifeiji
(MHA)是 Transformer 的关键组件。在mha中,注意力头独立工作,dcmha),这是一种参数和计算高效的注意力架构 ...
0 0 0 2025/05/07 arXiv:2405.08553v2 Kayin
这项工作介绍了自适应局部 - 全球合并(ALGM),这是一种使用纯视觉 Transformer 的语义分割网络的 Token 减少方法。 ALGM分为两个阶段合并 Token :(1)在第一个网络层中,它在一个小的本地窗口中合并了相似的 Token ,并且(2)通过网络中途,它在整个图像中合并了相似的 Token 。这是由分析激发的,在这种分析中,我们发现在这种情况下,具有高余弦相似性的 Toke ...
0 0 0 2025/05/07 arXiv:2406.09936v1 澹台心木
(NLP)大型语言模型最新进展的推动,我们设计了一种用于预测的时间序列基础模型,其在各种公,数据集上的开箱即用的零样本性能接近于每个单独数据集的最先进的监督预测模型。我们的模型基于在大型时间序列语料库上预训练修补解码器式注意力模型,并且可以在不同的预测历史长度、预测长度和时间粒度上良好地工作 ... ...
0 1 0 2025/05/07 arXiv:2310.10688v4 ligang_

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)