felixslu的文档

Metis: Training Large Language Models with Advanced Low-Bit Quantization

这项工作将各向异性参数分布确定为具有低位量化的大型语言模型（LLMS）的基本障碍：一些主要的奇异值会产生与块量化固定质量固有偏见相冲突的宽数值范围。这种偏见不成比例地保留了高磁性值，同时丢弃较小的值，从而导致训练不稳定和模型性能较低。这项工作引入了METIS，这是一个训练框架，将光谱分解与随机嵌入结合在一起，以有效地将巨大的长尾组件占主导地位，从而将广泛的分布压缩为量化范围的狭窄范围；（ii）光谱领域中的自适应学习率，以扩大代表性不足的方向，并更好地捕获对性能至关重要的多种功能；（iii）一个双范围的正常化程序，共同约束数值精度和参数范围分布，确保稳定，无偏置的低位训练 ...

0 0 0 0 2025/09/03 arXiv:2509.00404v1 felixslu

$\nabla$NABLA: Neighborhood Adaptive Block-Level Attention

基于 Transformer 的架构的最新进展表明，在视频生成任务中取得了巨大的成功。但是，全部注意机制的二次复杂性仍然是关键的瓶颈，尤其是对于高分辨率和长期视频序列。在本文中，我们提出了Nabla，Nabla是一种新型的邻域自适应块层的注意机制，该机制动态适应了视频扩散 Transformer （DITS）中的稀疏模式 ...

0 0 0 0 2025/08/20 arXiv:2507.13546v1 felixslu

Compact Attention: Exploiting Structured Spatio-Temporal Sparsity for Fast Video Generation

自我发项机制的计算需求对基于 Transformer 的视频生成构成了关键挑战，尤其是在综合超长序列方面。当前的方法，例如分解的注意力和固定的稀疏模式，无法完全利用视频数据中固有的时空冗余。通过对视频扩散 Transformer （DIT）的系统分析，我们发现了一个关键的见解：注意矩阵展示了结构化但异质的稀疏模式，其中专业的头部动态地进入不同的时空区域（e ...

0 0 0 0 2025/08/20 arXiv:2508.12969v1 felixslu

Fairy$\pm i$: the First 2-bit Complex LLM with All Parameters in $\{\pm1, \pm i\}$

量化感知培训（QAT）将量化整合到训练环中，使LLMS能够学习强大的低位表示，并被广泛认为是最有前途的研究方向之一。当前的所有QAT研究都侧重于最大程度地减少全精度模型上的量化误差，在该模型中，完整精度充当上限（精度天花板）。现有的方法甚至没有试图超越此天花板 ...

0 0 0 0 2025/08/08 arXiv:2508.05571v1 felixslu

Unifying Block-wise PTQ and Distillation-based QAT for Progressive Quantization toward 2-bit Instruction-Tuned LLMs

随着大型语言模型（LLMS）的快速缩放对在资源受限设备上的部署提出了重大挑战，因此对极低位量化（例如2位）的兴趣越来越大。尽管先前的作品表明，在精度和延迟方面，2位大型模型在其4位较小的较小对应物上是最佳的，但这些进步仅限于预先训练的LLMS，并且尚未扩展到指令调整模型。为了弥合这一差距，我们提出了统一的渐进量量化（UPQ）$ - $一种新型的渐进量化框架（FP16 $ \ rightArow $ int4 $ \ rightarrow $ int2），该框架将基于基于蒸馏的量化后量化培训（PTQ）统一限制的块培训后量化（PTQ），以实用量化量化的量化量化量化量化（Distrization-QAT），以实现Int2指导量化量化2量化 ...

0 0 0 0 2025/08/06 arXiv:2506.09104v1 felixslu

Apple Intelligence Foundation Language Models: Tech Report 2025

我们介绍了两种多语言的多式联运基础语言模型，这些模型为Apple Intelligence提供了跨苹果设备和服务的功能：我是通过建筑创新（例如KV-CACHE共享和2位量化量化的培训）为Apple Silicon优化的3B参数的启动式车型模型； II以新型的并行轨道混合物为PT-MOE Transformer 建立的可扩展服务器模型，结合了轨道并行性，Experters稀疏计算的混合物以及相互交织的全球位置关注，以在Apple的私有云计算平台上提供高质量的质量，并具有竞争力的成本。这两种模型均经过大规模多语言和多模式数据集的培训，这些数据集是通过负责任的网络爬行，许可的语料库和高质量合成数据来源的，然后在新的异步平台上通过有监督的微调和增强学习进一步完善。最终的模型支持几种其他语言，同时了解图像和执行工具调用 ...

0 0 0 0 2025/08/06 arXiv:2507.13575v1 felixslu

Metis: Training Large Language Models with Advanced Low-Bit Quantization

$\nabla$NABLA: Neighborhood Adaptive Block-Level Attention

Compact Attention: Exploiting Structured Spatio-Temporal Sparsity for Fast Video Generation

Fairy$\pm i$: the First 2-bit Complex LLM with All Parameters in $\{\pm1, \pm i\}$

Unifying Block-wise PTQ and Distillation-based QAT for Progressive Quantization toward 2-bit Instruction-Tuned LLMs

Apple Intelligence Foundation Language Models: Tech Report 2025

Quaff: Quantized Parameter-Efficient Fine-Tuning under Outlier Spatial Stability Hypothesis

The Geometry of LLM Quantization: GPTQ as Babai's Nearest Plane Algorithm

Squeeze10-LLM: Squeezing LLMs' Weights by 10 Times via a Staged Mixed-Precision Quantization Method

Task-Circuit Quantization: Leveraging Knowledge Localization and Interpretability for Compression