在后深度学习时代,Transformer架构在预训练的大模型和各种下游任务上展现了强大的性能。然而,这种架构巨大的计算需求让许多研究人员望而却步。为了进一步降低注意力模型的复杂性,人们做出了大量努力来设计更有效的方法 ...
0 0 0 2025/07/01 arXiv:2404.09516v1 boboshen
The Mamba layer offers an efficient selective state space model (SSM) that is highly effective in modeling multiple domains, including NLP, long-range sequence processing, and computer vision. Selecti ...
0 0 0 2025/07/01 arXiv:2403.01590v2 zjn_a
循环神经网络(rnn)在长序列上具有快速推理和高效扩展的能力,但它们难以训练且难以扩展。我们提出了hawk (一种具有门控线性递归的 rnn)和 ...
0 2 1 2025/07/01 arXiv:2402.19427v1 czvzb
状态空间模型 (SSM) 最近在大规模语言建模基准测试中向 Transformer 展示了具有竞争力的性能,同时实现了作为序列长度函数的线性时间和内存复杂性。最近发布的 SSM 模型 Mamba 在语言建模和长序列处理任务中都表现出了令人印象深刻的性能。同时,混合专家 (MoE) 模型表现出了卓越的性能,同时显着降低了推理的计算和延迟成本,但代价是占用了更大的内存占用 ...
0 0 0 2025/07/01 arXiv:2402.01771v1 zjn_a
状态空间模型(ssm)已成为顺序建模领域的有力竞争者,挑战了 Transformer 的主导地位。与此同时,专家(MOE)的混合物显着改进了基于 Transformer 的大型语言模型,包括最近最先进的开放模型。我们建议,为了释放ssm的扩展潜力,它们应该与,它们应该与 ...
0 1 0 2025/07/01 arXiv:2401.04081v2 boboshen
在这项工作中,我们将先前提出的离线空间网络扩展到静态和移动扬声器场景中的长期流媒体多通道语音增强。空间网络利用空间信息,例如语音的空间/转向方向,用于区分目标语音和干扰,并取得出色的性能。空间网络的核心是用于学习空间向量的时间动态的窄带自我发项模块 ...
0 0 0 2025/07/01 arXiv:2403.07675v2 zjn_a
超宽场荧光素血管造影(UWF-FA)可以使用荧光素钠的精确鉴定眼疾病,这可能是有害的。现有研究开发了从超宽场扫描激光眼镜检查(UWF-SLO)产生UWF-FA的方法,以减少与注射相关的不良反应。但是,这些方法在产生高质量的后期UWF-FA方面的有效性较差,尤其是在病变区域和细节中 ...
0 0 0 2025/07/01 arXiv:2409.00726v1 Rrrrr
多模式大语模型(MLLM)引起了广泛的兴趣,并具有丰富的应用。但是,其 Transformer 结构中的固有注意机制需要二次复杂性,并导致昂贵的计算开销。因此,在这项工作中,我们提出了基于状态空间模型的多模式大语言模型VL-Mamba,已证明其具有巨大的潜力,可以以序列长度快速推理和线性缩放的长期序列建模 ...
0 0 0 2025/07/01 arXiv:2403.13600v1 zjn_a

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)