连接主义时间分类(CTC)和注意力机制是最近场景文本识别工作中使用的两种主要方法。与基于注意力的方法相比,CTC 解码器的推理时间要短得多,但准确性较低。为了设计一个高效且有效的模型,我们提出了 CTC 的引导训练(GTC),其中 CTC 模型从更强大的注意力引导中学习更好的对齐和特征表示 ...
主要场景文本识别模型通常包含两个构建块:用于提取特征的视觉模型和用于文本校正的序列模型。这种混合架构虽然准确,但很复杂且效率较低。在本研究中,我们提出有了一个在分块图像标记化框架内用于场景文本识别的单一模型,该模型完全省去了顺序建模...... ...
数十亿公共领域文档仍然被困在硬拷贝中或缺乏准确的数字化。现代自然语言处理方法无法用于索引、检索和总结其文本;进行计算文本分析;或提取信息进行统计分析,这些文本不能纳入语言模型训练。鉴于公共领域文本的多样性和数量庞大,大规模释放它们需要准确的光学字符识别 (OCR)、部署成本极低,并且样本效率高,可以根据新颖的集合、语言和字符集进行定制 ...
使用大量纯文本数据训练大型语言模型 (LLM) 的最新进展导致跨许多领域和任务(包括特定于文档的任务)的强泛化。与此相反,有一种趋势是训练专为文档理解而定制的多模式 Transformer 架构,这些架构专门设计用于将文本输入与相应的文档布局融合。这涉及一个单独的微调步骤,需要额外的训练数据 ...
布局感知预训练模型在文档图像问答方面取得了重大进展。他们将额外的可学习模块引入到现有语言模型中,以从 OCR 工具获得的文本边界框坐标中捕获文档图像中的布局信息。然而,额外的模块需要对大量文档图像进行预训练 ...
Grounding-DINO是一种最先进的开放集检测模型,可处理多种视觉任务,包括开放药品检测(OVD)、工作站接地(PG)和引用表达理解(REC)。其工厂被广泛采用作为各种下游应用程序的主流架构。然而,尽管具有意义,原始的Grounding-DINO模型由于代码匮乏,缺乏全面的重要公开技术细节... ...