arxiv HybridToken-VLM: Hybrid Token Compression for Vision-Language Models

名称
HybridToken-VLM: Hybrid Token Compression for Vision-Language Models
首页
https://yiyibooks.cn/arxiv/2512.08240v1/index.html
原始地址
https://arxiv.org/abs/2512.08240
描述
视觉语言模型 (VLM) 已经改变了多模态推理,但将数百个视觉补丁标记输入 LLM 会产生二次计算成本,导致内存和上下文窗口紧张。传统方法面临着权衡:连续压缩淡化了对象身份等高级语义,而离散量化则丢失了纹理等细粒度细节。我们引入了 HTC-VLM,这是一种通过双通道解开语义和外观的混合框架,即通过 ViT 补丁获取细粒度细节的连续路径,以及使用投影到四个标记的 MGVQ 量化的符号锚点的离散路径。它们被融合成一个 580 个 token 的混合序列,并通过解开注意力掩码和瓶颈压缩成单个 voco token,确保高效且扎实的表示。 HTC-VLM 在七个基准测试(GQA、VQAv2、MMBench、MME、POPE、SEED-Bench、ScienceQA-Image)中实现了 87.2% 的平均性能保留,以 580 比 1 的压缩比超越领先的连续基准(81.0%)。注意力分析表明,压缩 Token 优先考虑离散锚,验证了其语义指导。我们的工作表明,极简混合设计可以解决效率与保真度的困境,并推进可扩展的 VLM ...