基本信息 - SV-RAG: LoRA-Contextualizing Adaptation of MLLMs for Long Document Understanding

arxiv SV-RAG: LoRA-Contextualizing Adaptation of MLLMs for Long Document Understanding

阅读

Star 0

名称: SV-RAG: LoRA-Contextualizing Adaptation of MLLMs for Long Document Understanding

首页: https://yiyibooks.cn/arxiv/2411.01106v2/index.html

原始地址: https://arxiv.org/pdf/2411.01106

描述

多模式的大型语言模型（MLLM）最近在文本丰富的图像理解中显示出巨大的进步，但他们仍然在复杂的，多页的视觉上富裕文档中挣扎。使用文档解析器进行检索的传统方法遭受了性能和效率限制，而将所有页面直接呈现给MLLMS会导致效率低下，尤其是冗长的效率。在这项工作中，我们提出了一个名为** s ** elf的新颖框架 -  ** v ** iSual ** r ** r ** etrieval- ** a ** a ** uginged ** g ** gy **势能（sv-rag），它可以拓宽任何MLLM的视野以支持长期记录的理解 ...

文件上传进度

0%

上传成功 0 个文件