arxiv Training-free and Adaptive Sparse Attention for Efficient Long Video Generation

名称
Training-free and Adaptive Sparse Attention for Efficient Long Video Generation
首页
https://yiyibooks.cn/arxiv/2502.21079v1/index.html
原始地址
https://arxiv.org/pdf/2502.21079
描述
具有扩散 Transformer (DIT)的高保真长视频通常受到大量延迟的阻碍,这主要是由于注意机制的计算需求。例如,使用Hunyuanvideo生成8秒的720p视频(110k Token ),大约需要600个Pflops,而注意力计算消耗了约500个Pflops。为了解决这个问题,我们建议ADASPA,第一个动态模式和在线精确搜索稀疏注意方法 ...