这项调查探讨了大型语言模型 (LLM) 和向量数据库 (VecDB) 的协同潜力,这是一个新兴但快速发展的研究领域。随着 LLM 的激增,带来了一系列挑战,包括幻觉、过时的知识、高昂的商业应用成本和内存问题。 VecDB 通过提供一种有效的方法来存储、检索和管理 LLM 操作固有的高维向量表示,成为解决这些问题的引人注目的解决方案 ...
我们引入了 REPLUG,这是一种检索增强的语言建模框架,它将语言模型 (LM) 视为黑匣子,并通过可调整的检索模型对其进行增强。之前的检索增强型语言模型通过特殊的交叉注意机制训练语言模型来编码检索到的文本,而 REPLUG 则不同,它只是将检索到的文档添加到冻结黑盒 LM 的输入中。这种简单的设计可以轻松应用于任何现有的检索和语言模型 ...
自监督预训练技术在文档人工智能方面取得了显着的进步。大多数多模态预训练模型使用掩码语言建模目标来学习文本模态的双向表示,但它们在图像模态的预训练目标上有所不同。这种差异增加了多模态表示学习的难度 ...
由于其有效的模型架构和大规模无标签扫描/数字生成文档的优势,文本和布局的预训练已被证明在各种视觉丰富的文档理解任务中是有效的。我们提出了具有新预训练任务的 LayoutLMv2 架构,以在单个多模式框架中对文本、布局和图像之间的交互进行建模。具体来说,通过双流多模态 Transformer 编码器,LayoutLMv2 不仅使用现有的屏蔽视觉语言建模任务,还使用新的文本图像对齐和文本图像匹配任务,这使得它可以更好地捕获跨模态交互在预训练阶段 ...
近年来,预训练技术已在多种 NLP 任务中得到成功验证。尽管预训练模型广泛用于 NLP 应用,但它们几乎完全专注于文本级操作,而忽略了对于文档图像理解至关重要的布局和样式信息。在本文中,我们提出了 \textbf{LayoutLM} 来联合建模扫描文档图像中文本和布局信息之间的交互,这有利于大量现实世界文档图像理解任务,例如从扫描文档中提取信息 ...
大型语言模型(LLM)已经证明了它们在上下文中学习的能力,使它们能够基于一些输入输出示例执行各种任务。然而,情境学习的有效性在很大程度上取决于所选示例的质量。在本文中,我们提出了一种新颖的框架来迭代训练密集检索器,该检索器可以为 LLM 识别高质量的上下文示例 ...