arxiv TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document

名称
TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document
首页
https://yiyibooks.cn/arxiv/2403.04473v2/index.html
原始地址
https://arxiv.org/abs/2403.04473
描述
我们推出了 TextMonkey,这是一种专为以文本为中心的任务而定制的大型多模态模型 (LMM),包括文档问答 (DocVQA) 和场景文本分析。我们的方法引入了多个维度的增强:通过采用零初始化的转移窗口注意力,我们在更高的输入分辨率下实现了跨窗口连接并稳定了早期训练;我们假设图像可能包含冗余标记,通过使用相似性过滤掉重要标记,我们不仅可以简化标记长度,还可以提高模型的性能。此外,通过扩展我们的模型的功能以涵盖文本识别和基础,并将位置信息纳入响应中,我们增强了可解释性并最大限度地减少幻觉 ...