大型多模型模型(LMM)已成为能够理解各种数据模式的强大模型,包括文本,图像和视频。 LMMS将文本和视觉数据同时编码为 Token ,然后由集成的大语言模型(LLM)组合和处理。包括视觉 Token (包括视觉 Token )大大增加了总数,通常增加数千个 ...

0 0 0 0 2025/05/21 arXiv:2503.02175v2 lc

多模式大型语言模型(MLLM)通过将预训练的视觉编码器从大型语言模型(LLMS)中集成到视觉性特征(LLM)来提高视觉性能任务的性能。但是,MLLMS过程和利用视觉信息的方式尚不清楚。在本文中,发现视觉信息的主要流动的转变是:(1)在浅层层中,在图像 Token 和指令 Token 之间观察到强烈的相互作用,其中大多数视觉信息都注入了指令 Token 中以形成交叉模式的语义表示; (2)在较深的层中,图像 Token 主要相互交互,汇总了其余的视觉信息,以优化视觉模态内的语义表示 ...

0 0 0 0 2025/05/14 arXiv:2503.13108v1 lc

视觉语言模型需要大量的计算资源来进行推断,这是由于表示视觉信息所需的其他输入 Token 。但是,这些视觉 Token 通常包含冗余和不重要的信息,从而导致不必要的 Token 数量。为了解决这个问题,我们介绍了PACT,该方法通过修剪无关的 Token 并在语言模型的早期层中进行视觉冗余,从而减少推理时间和内存使用情况 ...

0 0 0 0 2025/05/09 arXiv:2504.08966v1 lc

多模式大语言模型(MLLM)的最新进展通常会使用大图像 Token 来补偿MLLM的视觉缺陷,这不仅表现出明显的冗余,而且极大地加剧了已经很高的计算。 Token 修剪是加速MLLM的有效解决方案,但是何时以及如何放弃 Token 仍然是一个挑战。在本文中,我们提出了一种新颖且无训练的方法,用于将MLLM的有效视觉 Token 修剪(称为Fitprune),该方法可快速根据预定的预算来迅速为MLLM生成完整的修剪食谱 ...

0 0 0 0 2025/05/09 arXiv:2409.10197v2 lc