- 名称
- Layout and Task Aware Instruction Prompt for Zero-shot Document Image Question Answering
- 描述
布局感知预训练模型在文档图像问答方面取得了重大进展。他们将额外的可学习模块引入到现有语言模型中,以从 OCR 工具获得的文本边界框坐标中捕获文档图像中的布局信息。然而,额外的模块需要对大量文档图像进行预训练 ...
布局感知预训练模型在文档图像问答方面取得了重大进展。他们将额外的可学习模块引入到现有语言模型中,以从 OCR 工具获得的文本边界框坐标中捕获文档图像中的布局信息。然而,额外的模块需要对大量文档图像进行预训练 ...