基于 Transformer 的历史文献 HTR

Phillip Benjamin Ströbel Simon Clematide Martin Volk
Department of Computational Linguistics
University of Zurich
{pstroebel,siclemat,volk}@cl.uzh.ch
Tobias Hodel
Walter Benjamin Kolleg
University of Bern
tobias.hodel@unibe.ch

1简介

手写文本识别 (HTR) 已成为从扫描文档中提取文本的重要工具（Terras，正在印刷中）。当前图书馆和档案馆的数字化浪潮并不仅限于历史手稿。因此，HTR 在向研究人员和公众提供手稿内容方面发挥着重要作用。

近年来，HTR 取得了显着的进步，这在很大程度上要归功于基于神经网络的技术的引入（Graves 和 Schmidhuber，2008；Graves 等人，2009）。 Transkribus¹¹1https://readcoop.eu/de/transkribus/ 成功地集成了这些方法，其 HTR+ 模型（Michael 等人，2018）可以实现字符错误率（CER）低于 5%，几乎没有带注释的真实材料（Mühlberger 等人，2019）0>。

不过，瑞士图书馆和档案馆的手稿材料数字平台e-manuscripta²²2https://www.e-manuscripta.ch/显示，在包含45k标题的“通讯”类别中，只有313个，或者 $0.1\%$ ，包含转录。如此庞大的手稿收藏给图书馆和档案馆带来了巨大的挑战，特别是因为手写风格多种多样。作者的笔迹会根据他们所写的内容而变化，这只会增加复杂性。图 1 通过显示鲁道夫·格瓦尔特 (Rudolf Gwalther) 在 (a) 一本 16^世纪世纪诗集和 (b) 一封信中的笔迹以及不同作者的其他笔迹（c 和d).

Refer to caption — 图1：不同的手写风格。鲁道夫·格瓦尔特 (Rudolf Gwalther) 的诗歌 (a)，鲁道夫·格瓦尔特 (Rudolf Gwalther) 的信件 (b)、马蒂厄·科瓦内 (Matthieu Coignet) (b) 和卡斯帕·沃尔夫 (Kaspar Wolf) (c)。

此类集合的可变性要求模型能够很好地适应不同的手，而只需很少甚至没有训练数据。基于 Transformer 的架构（Vaswani 等人，2017）已被证明适合构建大型语言表示模型，例如 BERT （Devlin 等人，2018）。 BERT 风格的模型用于自然语言理解的特定模型，被称为强迁移学习器（Ruder 等人，2019）。最近，Transformer 已经进入图像处理领域（Dosovitskiy 等人，2020；Touvron 等人，2021），这推动了图像 Transformer 的发展（Bao 等人，2021）.

2方法

我们研究的基础是 TrOCR Li 等人 (2021)，它将 BERT 风格的视觉 Transformer BEiT (Bao 等人, 2021) 与 RoBERTa 相结合(Liu 等人, 2019) 语言表示模型。 BEiT 充当编码器，并在包含 120 万张图像的 Image-Net-1K (Russakovsky 等人，2015) 数据集上进行预训练，而 RoBERTa 充当生成文本的解码器。 Li 等人 (2021) 使用 687M 的印刷文本和约 18M 合成生成的英文手写文本行来预训练 TrOCR 模型。在此阶段，模型学习从图像中提取相关特征并将其解码为英语文本，从而从头开始训练语言模型。作者将 RoBERTa 解码器初始化为 6 层和 12 层，与预训练的 12 层 BEiT 实例配对时将它们称为 BASE，与 24 层 BEiT 模型配对时将它们分别称为 LARGE。

最后，Li 等人 (2021) 在“真实世界”数据上微调了他们预训练的 TrOCR 实例，例如 IAM 数据集（Marti 和 Bunke，2002）。 IAM 数据集由不同作者的手写英文行组成。在此数据集上，TrOCR_BASE 的 CER 为 3.42%，TrOCR_LARGE 的 CER 为 2.89%。 TrOCR_LARGE 的得分仅比使用不同方法的 Diaz 等人 (2021) 的最佳得分落后 0.14 个百分点。

我们的研究旨在利用预先训练的视觉和语言转换器，希望对历史手稿进行微调的模型能够很好地概括，以应用于广泛且可变的手稿收藏。我们想测试是否可以将TrOCR 所获得的早期现代手稿中有关手写的“知识”转移到英语中。

3数据

我们的数据源自鲁道夫·格瓦尔特 (Rudolf Gwalther) 所著的 16^世纪世纪卷Lateinische Gedichte。³³3https://doi.org/10.7891/e-manuscripta-26750斯托茨和斯特罗贝尔（2021）从 e-manuscripta0> 下载可用图像和部分转录并将其加载到 Transkribus 界面中。他们应用布局识别来识别线条和基线，并将它们与转录对齐。公开可用的数据集有 4,037 行图像和相应的拉丁文文本行，我们将其分为 3,603 行用于训练，433 行用于验证。⁴⁴4https://doi.org/10.5281/zenodo.4780947

第二个数据集包含来自 Heinrich Bullinger (1504 - 1575) 信件的 16,584 行拉丁文。它包含来自大约 60 位不同作者的手，作者分布严重倾斜。我们将数据分为 13,843 行用于训练，1,685 行用于验证，1,056 行用于测试。

4实验与讨论

我们在 Gwalther 和 Bullinger 数据上训练了 50 个时期的 Transkribus HTR+ 模型作为参考模型。⁵⁵5我们使用Acta_17 HTR+作为基础模型。表1显示了“HTR+”下的结果。

对于 TrOCR 架构，使用相同的数据，我们对 TrOCR_BASE 和 TrOCR_LARGE 进行了 3 个最多 20 个 epoch 的微调。⁶⁶6未经训练的 TrOCR_LARGE 模型在验证数据上的 CER 为 57.48%。

表 1 展示了我们初始实验的结果：我们调整模型的时间越长，它们的性能就越好。然而，这种影响对于 TrOCR_BASE 来说不太明显，如果我们调整超过 10 个 epoch，性能甚至会下降。此外，我们注意到 TrOCR_BASE 和 TrOCR_LARGE 之间存在明显的性能差距，其中 TrOCR_LARGE 总是表现更好。

我们的结果令人惊讶，因为预训练的 TrOCR 模型在我们的实验之前从未见过任何拉丁语数据。例如，我们的模型在对 Gwalther 数据进行微调时仅看到 23k 个拉丁单词。训练集和验证集的词汇重叠率为 68.9%。此外，TrOCR 从未遇到过早期现代手稿。尽管如此，我们取得的 CER 超过了我们在 Gwalther 数据上训练的参考模型，验证集上的 CER 提高了 0.19 个百分点，测试集上 Bullinger 数据的 CER 提高了 4.6 个百分点。

因此，我们假设 TrOCR 是一种稳健且高度可移植的手写表示模型，适合在所有风格和来源的手上进行微调。

		fine-tuning epochs					epochs
System	data	3	5	10	15	20	50
HTR+	Gwalther	-	-	-	-	-	2.74
TrOCR_BASE		3.84	3.72	3.18	3.31	3.62	-
TrOCR_LARGE		2.94	2.72	2.58	2.55	2.62	-
HTR+	Bullinger	-	-	-	-	-	21.13
TrOCR_LARGE	Bullinger	-	-	-	16.53	-	-

表格1： Gwalther 数据验证集和 Bullinger 数据测试集上不同模型和不同（微调）时期的 CER。

5结论

我们对 TrOCR 的初步实验表明，对于单作者和多作者数据集，它的性能优于最先进的模型。令人惊讶的是它在从未“学会阅读”的语言和书写风格上的强大表现。此外，与 Transkribus 模型相比，TrOCR 不需要基线信息。

在未来的实验中，我们想要研究插入预先训练的拉丁语 RoBERTa 解码器以及使编码器适应早期现代手写是否可以提高性能。

此外，我们希望在更多可变数据集上进一步检查 TrOCR。例如，专注于通信的项目将受益于适应许多不同作者的 HTR 模型。因此，我们将研究 TrOCR 是否比传统方法更好地推广这些数据。

参考

Bao et al. (2021) Hangbo Bao, Li Dong, and Furu Wei. 2021. Beit: Bert pre-training of image transformers. arXiv preprint arXiv:2106.08254.
Devlin et al. (2018) Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2018. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
Diaz et al. (2021) Daniel Hernandez Diaz, Siyang Qin, Reeve Ingle, Yasuhisa Fujii, and Alessandro Bissacco. 2021. Rethinking text line recognition models. arXiv preprint arXiv:2104.07787.
Dosovitskiy et al. (2020) Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. 2020. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929.
Graves et al. (2009) Alex Graves, Marcus Liwicki, Santiago Fernández, Roman Bertolami, Horst Bunke, and Jürgen Schmidhuber. 2009. A novel connectionist system for unconstrained handwriting recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 31(5):855–868.
Graves and Schmidhuber (2008) Alex Graves and Jürgen Schmidhuber. 2008. Offline handwriting recognition with multidimensional recurrent neural networks. Advances in neural information processing systems, 21:545–552.
Li et al. (2021) Minghao Li, Tengchao Lv, Lei Cui, Yijuan Lu, Dinei Florencio, Cha Zhang, Zhoujun Li, and Furu Wei. 2021. Trocr: Transformer-based optical character recognition with pre-trained models. arXiv preprint arXiv:2109.10282.
Liu et al. (2019) Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. 2019. Roberta: A robustly optimized bert pretraining approach. arXiv preprint arXiv:1907.11692.
Marti and Bunke (2002) U.-V. Marti and Horst Bunke. 2002. The iam-database: an english sentence database for offline handwriting recognition. International Journal on Document Analysis and Recognition, 5(1):39–46.
Michael et al. (2018) Johannes Michael, Max Weidemann, and Roger Labahn. 2018. Htr engine based on nns p3.
Mühlberger et al. (2019) Günter Mühlberger, Louise Seaward, Melissa Terras, and 51 more authors. 2019. Transforming scholarship in the archives through handwritten text recognition: Transkribus as a case study. Journal of Documentation, 75(5):954–976.
Ruder et al. (2019) Sebastian Ruder, Matthew E Peters, Swabha Swayamdipta, and Thomas Wolf. 2019. Transfer learning in natural language processing. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Tutorials, pages 15–18.
Russakovsky et al. (2015) Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, et al. 2015. Imagenet large scale visual recognition challenge. International journal of computer vision, 115(3):211–252.
Stotz and Ströbel (2021) Peter Stotz and Phillip Ströbel. 2021. bullinger-digital/gwalther-handwriting-ground- truth: Initial release.
Terras (in press) Melissa Terras. in press. Inviting ai into the archives: The reception of handwritten recognition technology into historical manuscript transcription. In Lise Jaillant, editor, Archives, Access and AI, Digital Humanities Research. Transcript Verlag.
Touvron et al. (2021) Hugo Touvron, Matthieu Cord, Matthijs Douze, Francisco Massa, Alexandre Sablayrolles, and Hervé Jégou. 2021. Training data-efficient image transformers & distillation through attention. In International Conference on Machine Learning, pages 10347–10357. PMLR.
Vaswani et al. (2017) Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need. In Advances in neural information processing systems, pages 5998–6008.