arxiv SV-RAG: LoRA-Contextualizing Adaptation of MLLMs for Long Document Understanding

名称
SV-RAG: LoRA-Contextualizing Adaptation of MLLMs for Long Document Understanding
首页
https://yiyibooks.cn/arxiv/2411.01106v2/index.html
原始地址
https://arxiv.org/pdf/2411.01106
描述
多模式的大型语言模型(MLLM)最近在文本丰富的图像理解中显示出巨大的进步,但他们仍然在复杂的,多页的视觉上富裕文档中挣扎。使用文档解析器进行检索的传统方法遭受了性能和效率限制,而将所有页面直接呈现给MLLMS会导致效率低下,尤其是冗长的效率。在这项工作中,我们提出了一个名为** s ** elf的新颖框架 -  ** v ** iSual ** r ** r ** etrieval- ** a ** a ** uginged ** g ** gy **势能(sv-rag),它可以拓宽任何MLLM的视野以支持长期记录的理解 ...