连接主义时间分类(CTC)和注意力机制是最近场景文本识别工作中使用的两种主要方法。与基于注意力的方法相比,CTC 解码器的推理时间要短得多,但准确性较低。为了设计一个高效且有效的模型,我们提出了 CTC 的引导训练(GTC),其中 CTC 模型从更强大的注意力引导中学习更好的对齐和特征表示 ...

0 0 0 0 2024/04/09 arXiv:2002.01276v1 cheng

我们将 TrOCR 框架应用于现实世界的历史手稿,并表明 TrOCR 本身是一个强大的模型,非常适合迁移学习。 TrOCR 仅接受过英语训练,但它可以相当轻松地适应使用拉丁字母的其他语言,并且几乎不需要培训材料。我们将 TrOCR 与 SOTA HTR 框架 (Transkribus) 进行比较,并表明它可以击败此类系统 ...

0 0 0 0 2024/04/03 arXiv:2203.11008v1 cheng

主要场景文本识别模型通常包含两个构建块:用于特征提取的视觉模型和用于文本转录的序列模型。这种混合架构虽然准确,但很复杂且效率较低。在本研究中,我们提出了一种在分块图像标记化框架内用于场景文本识别的单一视觉模型,该模型完全省去了顺序建模 ...

0 0 0 0 2024/04/02 arXiv:2205.00159v2 cheng

数十亿公共领域文档仍然被困在硬拷贝中或缺乏准确的数字化。现代自然语言处理方法无法用于索引、检索和总结其文本;进行计算文本分析;或提取信息进行统计分析,这些文本不能纳入语言模型训练。鉴于公共领域文本的多样性和数量庞大,大规模释放它们需要准确的光学字符识别 (OCR)、部署成本极低,并且样本效率高,可以根据新颖的集合、语言和字符集进行定制 ...

0 0 0 0 2024/04/02 arXiv:2310.10050v1 cheng

使用大量纯文本数据训练大型语言模型 (LLM) 的最新进展导致跨许多领域和任务(包括特定于文档的任务)的强泛化。与此相反,有一种趋势是训练专为文档理解而定制的多模式 Transformer 架构,这些架构专门设计用于将文本输入与相应的文档布局融合。这涉及一个单独的微调步骤,需要额外的训练数据 ...

0 0 0 0 2024/03/28 arXiv:2402.09841v1 cheng

布局感知预训练模型在文档图像问答方面取得了重大进展。他们将额外的可学习模块引入到现有语言模型中,以从 OCR 工具获得的文本边界框坐标中捕获文档图像中的布局信息。然而,额外的模块需要对大量文档图像进行预训练 ...

0 0 0 0 2024/03/28 arXiv:2306.00526v4 cheng

Grounding-DINO 是一种最先进的开放集检测模型,可处理多种视觉任务,包括开放词汇检测 (OVD)、短语接地 (PG) 和引用表达理解 (REC)。其有效性使其被广泛采用作为各种下游应用程序的主流架构。然而,尽管具有重要意义,原始的 Grounding-DINO 模型由于缺乏训练代码,缺乏全面的公开技术细节 ...

0 0 0 0 2024/03/28 arXiv:2401.02361v2 cheng

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)