congshijun的文档

congshijun

个性签名 ...

HySparse: A Hybrid Sparse Attention Architecture with Oracle Token Selection and KV Cache Sharing

这项工作引入了混合稀疏注意力（HySparse），这是一种新的架构，它将每个完整注意力层与几个稀疏注意力层交织在一起。虽然概念上很简单，但 HySparse 从策略上直接从前面的全注意力层派生出每个稀疏层的 Token 选择和 KV 缓存。该架构解决了先前稀疏注意力方法的两个基本限制。首先，传统方法通常依赖额外的代理来预测 Token 重要性，从而引入额外的复杂性和潜在的次优性能。相比之下，HySparse 使用完整的注意力层作为精确的预言机来识别重要的标记。其次，现有的稀疏注意力设计通常会在不节省 KV 缓存的情况下减少计算量。 HySparse 使稀疏注意力层能够重用全注意力 KV 缓存，从而减少计算量和内存。我们在 7B 密集和 80B MoE 模型上评估 HySparse。在所有设置中，HySparse 始终优于完全注意力和混合 SWA 基线。值得注意的是，在总共 49 层的 80B MoE 模型中，只有 5 层充分关注，但 HySparse 实现了显着的性能提升，同时将 KV 缓存存储减少了近 10 倍 ...

0 0 0 0 2026/03/11 arXiv:2602.03560v1 congshijun

HySparse: A Hybrid Sparse Attention Architecture with Oracle Token Selection and KV Cache Sharing

Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free

Let the Poem Hit the Rhythm: Using a Byte-Based Transformer for Beat-Aligned Poetry Generation

High-Throughput LLM inference on Heterogeneous Clusters