基本信息 - HybridToken-VLM: Hybrid Token Compression for Vision-Language Models

arxiv HybridToken-VLM: Hybrid Token Compression for Vision-Language Models

阅读

名称: HybridToken-VLM: Hybrid Token Compression for Vision-Language Models

首页: https://yiyibooks.cn/arxiv/2512.08240v1/index.html

原始地址: https://arxiv.org/abs/2512.08240

描述

视觉语言模型 (VLM) 已经改变了多模态推理，但将数百个视觉补丁标记输入 LLM 会产生二次计算成本，导致内存和上下文窗口紧张。传统方法面临着权衡：连续压缩淡化了对象身份等高级语义，而离散量化则丢失了纹理等细粒度细节。我们引入了 HTC-VLM，这是一种通过双通道解开语义和外观的混合框架，即通过 ViT 补丁获取细粒度细节的连续路径，以及使用投影到四个标记的 MGVQ 量化的符号锚点的离散路径。它们被融合成一个 580 个 token 的混合序列，并通过解开注意力掩码和瓶颈压缩成单个 voco token，确保高效且扎实的表示。 HTC-VLM 在七个基准测试（GQA、VQAv2、MMBench、MME、POPE、SEED-Bench、ScienceQA-Image）中实现了 87.2% 的平均性能保留，以 580 比 1 的压缩比超越领先的连续基准（81.0%）。注意力分析表明，压缩 Token 优先考虑离散锚，验证了其语义指导。我们的工作表明，极简混合设计可以解决效率与保真度的困境，并推进可扩展的 VLM ...