基本信息 - TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document

arxiv TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document

阅读

Star 0

名称: TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document

首页: https://yiyibooks.cn/arxiv/2403.04473v2/index.html

原始地址: https://arxiv.org/abs/2403.04473

描述

我们推出了 TextMonkey，这是一种专为以文本为中心的任务而定制的大型多模态模型 (LMM)，包括文档问答 (DocVQA) 和场景文本分析。我们的方法引入了多个维度的增强：通过采用零初始化的转移窗口注意力，我们在更高的输入分辨率下实现了跨窗口连接并稳定了早期训练；我们假设图像可能包含冗余标记，通过使用相似性过滤掉重要标记，我们不仅可以简化标记长度，还可以提高模型的性能。此外，通过扩展我们的模型的功能以涵盖文本识别和基础，并将位置信息纳入响应中，我们增强了可解释性并最大限度地减少幻觉 ...