修剪包含一系列旨在增加神经网络(NNS)稀疏性的技术。通常可以将这些技术构建为最小化损失功能,但受$ L_0 $纳入约束的约束。本文介绍了Connect,这是一种用于稀疏NN训练的新型可区分正规化程序,可确保输入层和输出层之间的连通性 ...
0 0 0 2025/05/07 arXiv:2502.00744v1 haiyao
体现的基础模型正在通过几次训练后训练来越来越关注其零射门的概括,可伸缩性和对新任务的适应性。但是,现有模型在很大程度上依赖于现实世界中的数据,这是昂贵且劳动密集型的收集数据。合成数据提供了一种具有成本效益的替代方案,但其潜力在很大程度上仍未得到充满异常 ...
0 0 0 2025/05/07 arXiv:2505.03233v1 蔡明方
基于高斯 - 拼图的新型视图合成的最新努力可以实现逼真的渲染。但是,由于初始化和过度拟合的浮点数,这种能力在稀疏视图方案中受到限制。最新的深度估计和一致性进展可以为密集的点云提供很少的视图。但是,所产生的姿势准确性是次优的。在这项工作中,我们提出了SPARS3R,它结合了从深度估计中从结构上估计和致密点云中准确姿势估计的优势 ...
0 0 0 2025/05/07 arXiv:2411.12592v1 zhifeiji
(MHA)是 Transformer 的关键组件。在mha中,注意力头独立工作,dcmha),这是一种参数和计算高效的注意力架构 ...
0 0 0 2025/05/07 arXiv:2405.08553v2 Kayin
这项工作介绍了自适应局部 - 全球合并(ALGM),这是一种使用纯视觉 Transformer 的语义分割网络的 Token 减少方法。 ALGM分为两个阶段合并 Token :(1)在第一个网络层中,它在一个小的本地窗口中合并了相似的 Token ,并且(2)通过网络中途,它在整个图像中合并了相似的 Token 。这是由分析激发的,在这种分析中,我们发现在这种情况下,具有高余弦相似性的 Toke ...
0 0 0 2025/05/07 arXiv:2406.09936v1 澹台心木
(NLP)大型语言模型最新进展的推动,我们设计了一种用于预测的时间序列基础模型,其在各种公,数据集上的开箱即用的零样本性能接近于每个单独数据集的最先进的监督预测模型。我们的模型基于在大型时间序列语料库上预训练修补解码器式注意力模型,并且可以在不同的预测历史长度、预测长度和时间粒度上良好地工作 ... ...
0 1 0 2025/05/07 arXiv:2310.10688v4 ligang_
我们提出了一个基于端到端 Transformer 的潜在扩散模型,用于图像合成。在ImageNet类条件生成任务上,我们表明,基于 Transformer 的潜扩散模型获得了与13相当的14.1FID ...
0 0 0 2025/05/07 arXiv:2212.14678v1 cwd
在逐步获取从依次到达任务中动态更新知识的逐步获取知识时,模型的概括能力对于解决持续学习(CL)中的灵敏度稳定困境至关重要。与基于最小化的优化器(如SGD)相比,重量减轻景观的清晰度最小化,以寻求平坦的微型ima在均匀损失或平滑梯度的社区中,这是一种强大的训练制度,可改善模型的概括。然而,只有少数作品讨论了CL的这种训练制度,证明了专用设计的零订单清晰度优化器可以提高CL性能 ...
0 0 0 2025/05/07 arXiv:2404.00986v2 19396386025

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)