- 名称
- Training-free and Adaptive Sparse Attention for Efficient Long Video Generation
- 描述
具有扩散 Transformer (DIT)的高保真长视频通常受到大量延迟的阻碍,这主要是由于注意机制的计算需求。例如,使用Hunyuanvideo生成8秒的720p视频(110k Token ),大约需要600个Pflops,而注意力计算消耗了约500个Pflops。为了解决这个问题,我们建议ADASPA,第一个动态模式和在线精确搜索稀疏注意方法 ...