lc的文档

个性签名 ...

DivPrune: Diversity-based Visual Token Pruning for Large Multimodal Models

大型多模型模型（LMM）已成为能够理解各种数据模式的强大模型，包括文本，图像和视频。 LMMS将文本和视觉数据同时编码为 Token ，然后由集成的大语言模型（LLM）组合和处理。包括视觉 Token （包括视觉 Token ）大大增加了总数，通常增加数千个 ...

0 0 0 0 2025/05/21 arXiv:2503.02175v2 lc

Lifting the Veil on Visual Information Flow in MLLMs: Unlocking Pathways to Faster Inference

多模式大型语言模型（MLLM）通过将预训练的视觉编码器从大型语言模型（LLMS）中集成到视觉性特征（LLM）来提高视觉性能任务的性能。但是，MLLMS过程和利用视觉信息的方式尚不清楚。在本文中，发现视觉信息的主要流动的转变是：（1）在浅层层中，在图像 Token 和指令 Token 之间观察到强烈的相互作用，其中大多数视觉信息都注入了指令 Token 中以形成交叉模式的语义表示；（2）在较深的层中，图像 Token 主要相互交互，汇总了其余的视觉信息，以优化视觉模态内的语义表示 ...

0 0 0 0 2025/05/14 arXiv:2503.13108v1 lc

PACT: Pruning and Clustering-Based Token Reduction for Faster Visual Language Models

视觉语言模型需要大量的计算资源来进行推断，这是由于表示视觉信息所需的其他输入 Token 。但是，这些视觉 Token 通常包含冗余和不重要的信息，从而导致不必要的 Token 数量。为了解决这个问题，我们介绍了PACT，该方法通过修剪无关的 Token 并在语言模型的早期层中进行视觉冗余，从而减少推理时间和内存使用情况 ...

0 0 0 0 2025/05/09 arXiv:2504.08966v1 lc

Fit and Prune: Fast and Training-free Visual Token Pruning for Multi-modal Large Language Models

多模式大语言模型（MLLM）的最新进展通常会使用大图像 Token 来补偿MLLM的视觉缺陷，这不仅表现出明显的冗余，而且极大地加剧了已经很高的计算。 Token 修剪是加速MLLM的有效解决方案，但是何时以及如何放弃 Token 仍然是一个挑战。在本文中，我们提出了一种新颖且无训练的方法，用于将MLLM的有效视觉 Token 修剪（称为Fitprune），该方法可快速根据预定的预算来迅速为MLLM生成完整的修剪食谱 ...

0 0 0 0 2025/05/09 arXiv:2409.10197v2 lc