长期时间序列预测 (LTSF) 提供对未来趋势和模式的更长期洞察。近年来,深度学习模型尤其是 Transformer 在 LTSF 任务中取得了先进的性能。然而,Transformers 的二次复杂度提出了平衡计算效率和预测性能的挑战 ...

0 0 0 0 2024/04/29 arXiv:2404.15772v1 sa2

尽管卷积网络多年来一直是视觉任务的主导架构,但最近的实验表明,基于 Transformer 的模型,尤其是 Vision Transformer (ViT),在某些设置中可能会超出其性能。然而,由于 Transformer 中自注意力层的二次运行时间,ViT 需要使用补丁嵌入,将图像的小区域组合成单个输入特征,以便应用于更大的图像尺寸。这就提出了一个问题:ViT 的性能是否归因于本质上更强大的 Transformer 架构,或者至少部分归因于使用补丁作为输入表示?在本文中,我们为后者提供了一些证据:具体来说,我们提出了 ConvMixer,这是一个极其简单的模型,在精神上与 ViT 和更基本的 MLP-Mixer 类似,因为它直接对作为输入的补丁进行操作,分离空间和通道维度的混合,并在整个网络中保持相同的大小和分辨率 ...

0 0 0 0 2024/04/22 arXiv:2201.09792v1 sa2

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)