这项工作引入了混合稀疏注意力(HySparse),这是一种新的架构,它将每个完整注意力层与几个稀疏注意力层交织在一起。虽然概念上很简单,但 HySparse 从策略上直接从前面的全注意力层派生出每个稀疏层的 Token 选择和 KV 缓存。该架构解决了先前稀疏注意力方法的两个基本限制。首先,传统方法通常依赖额外的代理来预测 Token 重要性,从而引入额外的复杂性和潜在的次优性能。相比之下,HySparse 使用完整的注意力层作为精确的预言机来识别重要的标记。其次,现有的稀疏注意力设计通常会在不节省 KV 缓存的情况下减少计算量。 HySparse 使稀疏注意力层能够重用全注意力 KV 缓存,从而减少计算量和内存。我们在 7B 密集和 80B MoE 模型上评估 HySparse。在所有设置中,HySparse 始终优于完全注意力和混合 SWA 基线。值得注意的是,在总共 49 层的 80B MoE 模型中,只有 5 层充分关注,但 HySparse 实现了显着的性能提升,同时将 KV 缓存存储减少了近 10 倍 ...

0 0 0 0 2026/03/11 arXiv:2602.03560v1 congshijun

从LSTM和公路网络等早期模型到最近的状态空间模型,线性注意力以及软磁心的关注,门控机制已被广泛使用。然而,现有文献很少检查门控的特定影响。在这项工作中,我们进行了全面的实验,以系统地研究门控的SoftMax注意变体 ...

0 2 1 1 2025/09/10 arXiv:2505.06708v1 congshijun

诗歌与音乐之间的交集为计算创造力提供了一个有趣的案例,但仍然相对尚未探索。本文通过节拍模式的镜头探讨了诗歌和音乐的整合,研究了基于字节的语言模型是否可以生成在诗歌背景下适合特定节拍模式的单词。利用早期的研究,我们开发了一种方法来训练基于字节的 Transformer 模型BYT5,以使诗歌与节拍模式保持一致 ...

0 0 0 0 2025/07/11 arXiv:2406.10174v1 congshijun

如今,许多公司都有各种类型的AI加速器,形成了异构群集。有效利用这些集群进行高通量大语模型(LLM)推理服务可以大大降低成本并加快任务处理。但是,LLM对异质簇的推断提出了两个主要挑战 ...

0 0 0 0 2025/05/15 arXiv:2504.15303v1 congshijun