arxiv Efficiently Modeling Long Sequences with Structured State Spaces

名称
Efficiently Modeling Long Sequences with Structured State Spaces
首页
https://yiyibooks.cn/arxiv/2111.00396v3/index.html
原始地址
https://arxiv.org/abs/2111.00396#/
描述
序列建模的中心目标是设计一个单一原则模型,该模型可以跨一系列模式和任务处理序列数据,特别是在长期依赖性方面。尽管包括 RNN、CNN 和 Transformer 在内的传统模型都有专门的变体来捕获长依赖性,但它们仍然难以扩展到 10000 美元或更多步骤的超长序列。最近一种有前途的方法提出了通过模拟基本状态空间模型(SSM)来建模序列\(x'(t)= Ax(t)+ Bu(t),y(t)= Cx(t)+ Du(t)\ ),并表明,对于状态矩阵 \( A \) 的适当选择,该系统可以在数学和经验上处理远程依赖关系 ...