- 名称
- SV-RAG: LoRA-Contextualizing Adaptation of MLLMs for Long Document Understanding
- 描述
多模式的大型语言模型(MLLM)最近在文本丰富的图像理解中显示出巨大的进步,但他们仍然在复杂的,多页的视觉上富裕文档中挣扎。使用文档解析器进行检索的传统方法遭受了性能和效率限制,而将所有页面直接呈现给MLLMS会导致效率低下,尤其是冗长的效率。在这项工作中,我们提出了一个名为** s ** elf的新颖框架 - ** v ** iSual ** r ** r ** etrieval- ** a ** a ** uginged ** g ** gy **势能(sv-rag),它可以拓宽任何MLLM的视野以支持长期记录的理解 ...