LORE:用于表结构识别的逻辑位置回归网络

Hangdi Xing1, Feiyu Gao3, Rujiao Long3, Jiajun Bu1, Qi Zheng3,
Liangcheng Li1, Cong Yao3, Zhi Yu2
Corresponding Author.
摘要

表结构识别(TSR)旨在将图像中的表格提取为机器可理解的格式。 最近的方法通过预测检测到的单元框的邻接关系或学习从表格图像生成相应的标记序列来解决这个问题。 然而,它们要么依赖额外的启发式规则来恢复表结构,要么需要大量的训练数据和耗时的顺序解码器。 在本文中,我们提出了一种替代范式。 我们将 TSR 建模为逻辑位置回归问题,并提出了一个名为 LORE 的新 TSR 框架,代表逻辑位置回归网络,该框架首次将逻辑位置回归与表单元格的空间位置回归结合起来。 我们提出的 LORE 在概念上比其他范例的 TSR 模型更简单、更容易训练并且更准确。 标准基准测试表明 LORE 始终优于现有技术。 代码可在 https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/DocumentUnderstanding/LORE-TSR 获取。

介绍

表格格式的数据普遍存在于各种用于总结和呈现信息的文档中。 随着世界走向数字化,解析非结构化数据(例如图像和 PDF 文件)中的表格的需求正在迅速增长。 虽然对于人类来说很简单,但由于表格布局和样式的多样性,这对于自动化系统来说是一个挑战。 表结构识别 (TSR) 是指将图像中的表转换为机器可理解的格式,通常采用逻辑坐标或标记序列。 提取的表结构对于信息检索、表到文本生成和问答系统等至关重要。

随着深度学习的发展,TSR 方法最近取得了长足的进步。 大多数基于深度学习的 TSR 方法可以分为以下范式。 第一类模型(Chi 等人 2019;Raja, Mondal, and Jawahar 2020;Liu 等人 2022)旨在探索检测到的细胞对之间的邻接关系以生成中间结果。 它们依靠繁琐的后处理或图形优化算法将表重建为逻辑坐标,如图1(a)所示,这在处理复杂的表结构时会遇到困难。 另一种范式将 TSR 表述为标记语言序列生成问题(Zhong, ShafieiBavani, and Jimeno Yepes 2020;Desai, Kayal, and Singh 2021),如图1所示( b). 它简化了 TSR 管道,但模型应该从嘈杂的序列标签中冗余地学习标记语法,这会导致大量的训练数据。 此外,由于顺序解码过程,这些模型非常耗时。

Refer to caption
(a) Adjacency relationship representations
Refer to caption
(b) Markup sequence representations
Refer to caption
(c) Logical location representations
图1: 使用不同表结构表示的 TSR 范例。 这里,sr,er,sc,ec指的是起始行,结束行,起始列和结束-分别列。

事实上,逻辑坐标是定义明确的机器可理解的表结构表示,可以完整地重构表,如图1(c)所示。 最近,出现了专注于探索表格单元格逻辑位置的工作(Xue等人2021) 然而,该方法通过序数分类来预测逻辑位置,并且没有考虑逻辑位置之间的自然依赖性。 例如,表格本身的设计是从上到下、从左到右,导致单元格的逻辑位置相互依赖。 逻辑位置的这种性质如图2 所示。 此外,该工作缺乏对各种 TSR 范式的全面比较。

为了打破现有方法的局限性,我们提出了LOgical Location REgression Network(简称LORE),这是一种概念上更简单、更有效的TSR框架。 它首先在输入图像上定位表格单元格,然后预测单元格的逻辑位置和空间位置。 为了更好地建模逻辑位置之间的依赖关系和约束,采用级联回归框架,结合单元间和单元内的监督。 LORE 的推理是并行网络前向传递,无需任何复杂的后处理或顺序解码策略。

Refer to caption
图2: 普通回归(左)和逻辑位置回归(右)之间的比较。 典型的回归假设是不同的目标是独立分布的。 然而,逻辑索引之间存在依赖性,例如,单元格“70.6”的逻辑位置受到周围四个单元格的逻辑位置的约束。

我们根据不同范式的 TSR 方法在广泛的基准上评估 LORE。 实验表明,LORE 具有很强的竞争力,并且优于以前最先进的方法。 具体来说,LORE 大幅超越了其他逻辑位置预测方法。 此外,LORE 预测得出的邻接关系和标记序列具有更高的质量,这表明 LORE 涵盖了在其他 TSR 范式下训练的模型的能力。

我们的主要贡献可概括如下:

  • 我们建议将 TSR 建模为逻辑位置回归问题,并设计 LORE,这是一种新的 TSR 框架,它捕获单元逻辑位置之间的依赖关系和约束,并预测逻辑位置和空间位置。

  • 我们凭经验证明逻辑位置回归范式非常有效,并且涵盖了以前的 TSR 范式的能力,例如预测邻接关系和生成标记序列。

  • LORE 提供了一种无需干预的方式来应用有效的 TSR 模型,无需设计后处理和解码策略。 该代码可用于支持对 TSR 的进一步调查。

相关工作

早期作品(Schreiber 等人 2017; Siddiqui 等人 2019) 引入分段或检测框架来定位和提取表格行和列的分割线。 随后,他们通过使用预定义规则凭经验对单元格框进行分组来重建表结构。 这些模型会受到带有跨单元格或扭曲的表格的影响。 最新的基线(Long等人2021;Smock、Pesala和Abraham 2022;Zhang等人2022)通过精心设计的检测器或基于注意力的合并模块来解决这个问题,以获得更准确的细胞边界和合并结果。 然而,它们要么是针对某种类型的数据集量身定制的,要么需要定制处理来恢复表结构,因此很难通用。 因此出现了专注于用神经网络直接预测表结构的模型。

TSR 作为细胞邻接探索

Chi 等人 (2019) 提出将表格单元格建模为文本分割区域,并利用单元格对之间的关​​系。 准确地说,它应用图神经网络(Kipf and Welling 2017)将检测到的细胞对分类为水平、垂直和不相关关系。 在这项工作之后,出现了致力于通过使用精细的神经网络并添加多模态特征来改进关系分类的模型(Qasim、Mahmood 和 Shafait 2019;Raja、Mondal 和 Jawahar 2020、2022;Liu 等人 2021 ,2022) 然而,关系三元组集合和全局表结构之间仍然存在差距。 需要复杂的图形优化算法或预定义的后处理来恢复表。

TSR 作为标记序列生成

李等人 (2020);钟、ShafieiBavani 和 Jimeno Yepes (2020);叶等人(2021)为端到端解决TSR问题做出了开创性的尝试。 他们使用序列解码器来生成表示表结构的标记语言标签。 然而,这些模型应该学习带有噪声标签的标记语法,导致这些方法难以训练,并且需要比其他范例更多的训练样本。 此外,由于顺序解码过程,这些模型非常耗时。

TSR 作为逻辑位置预测

Xue等人(2021)提出对TSR的每个检测到的单元格进行逻辑索引的顺序分类,这与我们的方法很接近。 该模型利用图神经网络将检测到的细胞分类到相应的逻辑位置,而忽略了细胞逻辑位置之间的依赖性和约束。 此外,该模型仅在少数数据集上进行评估,而不是根据强大的 TSR 基线进行评估。

Refer to caption
图3: 传说的插图。 它首先通过关键点分割在输入图像中定位表格单元格。 然后,逻辑位置与空间位置一起被预测。 采用级联回归器以及单元间和单元内监督来更好地对逻辑位置之间的依赖性和约束进行建模。

问题定义

在本文中,我们将 TSR 问题视为空间和逻辑位置回归任务。 具体来说,对于输入的表格图像,类似于检测器,一组表格单元{O1,O2,,ON}被预测为其逻辑位置{l1,l2,,lN},以及空间位置{B1,B2,,BN},其中li=(rs(i),re(i),cs(i),ce(i))代表起始行、终止行、起始列和终止列,Bi={(xk(i),yk(i))}k=1,2,3,4代表i-th单元的四个角点,N是图像中单元的数量。

利用由空间和逻辑位置表示的预测表格单元格,图像中的表格可以转换为机器可理解的格式,例如关系数据库。 此外,表的邻接矩阵和标记序列可以通过明确定义的变换而不是启发式规则直接从其逻辑坐标导出(参见补充部分1)。

方法

本节详细阐述了我们提出的 LORE,一个回归细胞空间和逻辑位置的 TSR 框架。 如图 3 所示,它采用 CNN 主干从输入图像中提取表格单元格的视觉特征。 然后通过两个回归头预测细胞的空间和逻辑位置。 我们特别利用级联回归器并采用单元间和单元内监督来对逻辑位置之间的依赖性和约束进行建模。 以下小节分别指定这些关键组件。

表格单元格功能准备

为了简化空间和逻辑位置的联合预测,我们采用关键点分割网络(Zhou, Wang, and Krähenbühl 2019; Long 等人 2021) 作为特征提取器并对每个表格单元进行建模以图像为中心点。

对于宽度 W 和高度 H 的输入图像,网络会生成特征图 fWR×HR×d 和细胞中心热图 Y^[0,1]WR×HR,其中Rd是输出步幅和隐藏大小; Y^x,y=1对应于检测到的细胞中心,而Y^x,y=0指的是背景。

在后续模块中,检测到的单元格中心{p^(1),p^(2),,p^(N)}处的CNN特征{f(1),f(2),,f(N)}被视为表格单元格的表示。

空间位置回归

我们选择预测四个角点而不是矩形边界框,以更好地处理野外桌子的倾斜和扭曲。 对于空间位置,主干f的特征通过3×3卷积、ReLU和另一个1×1卷积来获得预测{B^(1),B^(2),,B^(N)} 位于中心 {p^(1),p^(2),,p^(N)} 上,其中 B^(i)={(x^k(i),y^k(i))}k=1,2,3,4

逻辑位置回归

由于表格单元格的逻辑位置之间存在密集的依赖关系和约束,因此仅从单元格中心的视觉特征来学习逻辑坐标是相当具有挑战性的。 利用具有单元间和单元内监督的级联回归器来显式地建模单元之间的逻辑关系。

基础回归器

为了更好地对图像的逻辑关系进行建模,首先将视觉特征与空间信息相结合。 具体来说,细胞预测角点的特征被计算为其视觉特征和二维位置嵌入的总和:

f~(x^k(i),y^k(i),:)=f(x^k(i),y^k(i),:)+PE(x^k(i),y^k(i)), (1)

其中PE指的是二维位置嵌入函数(Xu 等人 2020, 2021) 然后将四个角点的特征添加到中心特征f(i)上,以增强每个预测细胞中心p^(i)的表示,如下:

h(i)=f(i)+k=14wkf~(x^k(i),y^k(i),:), (2)

其中 [w1,w2,w3,w4] 是可学习的参数。

然后采用消息传递和聚合网络来合并细胞视觉空间特征之间的交互:

{h~(i)}i=1,2,,N=SelfAttention({h(i)}i=1,2,,N). (3)

我们在 LORE 中使用自注意力机制(Vaswani 等人 2017) 来避免对表结构的分布做出额外的假设,而不是之前方法使用的图神经网络(Qasim, Mahmood ,Shafait 2019;Xue等人2021),这将在实验中进一步讨论。

然后,通过线性层计算基本回归量的预测,其中 ReLU 激活来自 {h~(i)}i=1,2,,N 作为 l^(i)=(r^s(i),r^e(i),c^s(i),c^e(i))

堆叠回归器

尽管基本回归器对细胞的视觉空间特征之间的关系进行编码,但每个细胞的逻辑位置仍然是单独预测的。 为了更好地捕获逻辑位置之间的依赖性和约束,使用堆叠回归器来再次查看基本回归器的预测。 具体来说,增强特征𝒉~和基本回归器𝒍^的逻辑位置预测被馈送到堆叠回归器中。 堆叠回归量可以表示为:

𝒍~=Fs(Ws𝒍^+𝒉~). (4)

其中Ws4×d是可学习的参数,𝒍^=[l^(1),,l^(N)]𝒉~=[h~(1),,h~(N)]Fs表示堆叠回归函数,其具有相同的自注意力和线性结构作为基本回归函数,但具有独立参数。 堆叠回归器的输出是𝒍~=[l~(1),,l~(N)]l~(i)=(r~s(i),r~e(i),c~s(i),c~e(i))

在推理阶段,通过将l~(i)的四个分量分配给最接近的整数来获得结果。

小区间和小区间内的监管

为了使逻辑位置回归器更好地理解逻辑位置之间的依赖关系和约束,我们提出了单元间和单元内的监督,概括为: 1)不同单元的逻辑位置应该是互斥的(细胞间)。 2) 一个表格单元格的逻辑位置应与其跨度(单元格内)一致。

在实践中,相距较远的单元的预测很少相互矛盾,因此我们只对相邻对进行采样以进行单元间监督。 更正式地,小区间和小区内损耗的方案可以表示为:

Linter =(i,j)Armax(r~e(j)r~s(i)+1,0) (5)
+(i,j)Acmax(c~e(j)c~s(i)+1,0),

其中 Ar (Ac) 是有序水平(垂直)相邻的单元对集合,即对于一对单元格 (i,j)Ar (Ac),单元格 i 与单元格 j 相邻,位于同一行(列)和单元格 j 的右侧(下方),而 r~s(i)r~e(j)c~s(i)c~e(j) 是单元格 i 和单元格 j 的预测逻辑索引。

Lintra =iMr|r~s(i)r~e(i)rs(i)+re(i)| (6)
+iMc|c~s(i)c~e(i)cs(i)+ce(i)|,

其中 Mr={i|re(i)rs(i)0}Mc={i|ce(i)cs(i)0} 是多行和多列单元格的集合。

那么小区间和小区间的损耗(I2C)为:

LI2C=Linter+Lintra.

对输出𝒍~进行监督,不需要额外的前向传递。

目标

细胞中心分割Lcenter和空间位置回归Lspa的损失是按照典型的基于关键点的检测方法计算的(Zhou, Wang, and Krähenbühl 2019; Long 等人 2021 )

计算基本回归器和堆叠回归器的逻辑位置损失:

Llog=1Ni=1N(l^(i)li1+l~(i)li1). (7)

然后通过添加单元中心分割、空间和逻辑位置回归以及 I2C 监督的损失来计算联合训练的总损失:

LLORE=Lcenter+Lspa+Llog+LI2C. (8)
Datasets ICDAR-13 ICDAR-19 WTW TG24K
metric F-1 Acc F-1 Acc F-1 Acc F-1 Acc
ReS2TIM - 17.4 - 13.8 - - - -
TGRNet 66.7 27.5 82.8 26.7 64.7 24.3 92.5 84.5
Ours 97.2 86.8 90.6 73.2 96.4 82.9 96.1 87.9
表格1: 与预测逻辑位置的 TSR 方法进行比较。 这里的F-1分数是细胞检测的指标。 下划线表示最好。
Datasets ICDAR-13 SciTSR-comp ICDAR-19 WTW
metric P R F-1 P R F-1 P R F-1 P R F-1
TabStrNet 93.0 90.8 91.9 90.9 88.2 89.5 82.2 78.7 80.4 - - -
LGPMA 96.7 99.1 97.9 97.3 98.7 98.0 - - - - - -
TOD 98.0 97.0 98.0 97.0 99.0 98.0 77.0 76.0 77.0 - - -
FLAGNet 97.9 99.3 98.6 98.4 98.6 98.5 85.2 83.8 84.5 91.6 89.5 90.5
NCGM 98.4 99.3 98.8 98.7 98.9 98.8 84.6 86.1 85.3 93.7 94.6 94.1
Ours 99.2 98.6 98.9 99.4 99.2 99.3 87.9 88.7 88.3 94.5 95.9 95.1
表2: 与预测细胞邻接性的 TSR 方法进行比较。 精确率、召回率和 F-1 分数是根据基于邻接关系的指标进行评估的。 下划线表示最好。
Datasets PubTabNet TableBank
metric TEDS TEDS BLEU
Image2Text - - 73.8
EDD 89.9 86.0 -
Ours 98.1 92.3 91.1
表3: 与生成标记序列的 TSR 方法进行比较。 下划线表示最好。

实验

在本节中,我们进行全面的实验来研究和回答两个关键问题:1)所提出的 LORE 是否能够有效地从输入图像中预测表格单元格的逻辑位置? 2)将 TSR 建模为逻辑位置回归的 LORE 框架是否克服了局限性并涵盖了其他范式的能力?

对于第一个问题,我们将 LORE 与直接预测逻辑位置的基线进行比较(Xue、Li 和 Tai 2019;Xue 等人 2021) 据我们所知,这是仅有的两种专注于直接预测逻辑位置的方法。 此外,我们提供了详细的消融研究来验证主要成分的有效性。 对于第二个问题,我们将 LORE 与将表结构建模为单元格邻接或标记序列的方法进行比较,并提供见解和定量结果。

数据集

我们根据广泛的基准评估 LORE,包括数字生成文档中的表格,即 ICDAR-2013 (Göbel 等人 2013)、SciTSR-comp (Chi 等人 2019)、PubTabNet (Zhong、ShafieiBavani 和 Jimeno Yepes 2020)、TableBank (Li 等人 2020) 和 TableGraph-24K (Xue 等人 2021) ,以及扫描文档和照片中的表格,即 ICDAR-2019 (Gao 等人 2019) 和 WTW (Long 等人 2021) 数据集的详细信息请参阅补充材料的第 2 节。 需要注意的是,ICDAR-2013 没有提供训练数据,因此我们将其扩展为部分版本以进行交叉验证,继之前的工作(Raja, Mondal, and Jawahar 2020; Liu 等人 2022, 2021) 当在 PubTabNet 上训练 LORE 时,我们从其集中随机选择 20,000 张图像以提高效率。

评估指标

不同范式的TSR模型使用不同的指标进行评估,包括1)逻辑位置的准确性(Xue,Li和Tao 2019),2)细胞之间邻接关系的F-1得分 (Göbel 等人 2012, 2013),以及 3) BLEU 和 TEDS (Papineni 等人 2002;Zhong、ShafieiBavani 和 Jimeno Yepes 2020) 我们在补充材料的第 3 节中详细介绍了这些指标。 逻辑位置、BLEU和TEDS的准确性直接反映了预测结构的正确性,而邻接评估仅衡量结构中间结果的质量。 在我们的实验中,LORE 在所有三种类型的指标下进行评估,因为逻辑坐标对于表示表结构来说是完整的,并且可以通过简单而明确的转换转换为邻接矩阵和标记序列(参见补充材料的第 1 节)。 在 TEDS 上进行评估时,我们使用从 Zheng 等人 (2021) 之后的 PDF 文件中提取的无样式文本。 继最近的工作(Raja,Mondal和Jawahar 2020;Xue等人2021)之后,我们还报告了细胞空间位置预测的性能,使用IoU阈值0.5下的F-1分数。

N Objectives Cascade Architecture Metrics
L1 Inter Intra Encoder Base Stacking A-c A-r Acc
1a - - Attention 3 3 87.2 84.8 79.4
1b - Attention 3 3 87.6 86.6 80.2
1c - Attention 3 3 89.5 87.1 81.2
1d Attention 3 3 91.3 87.9 82.9
2a GNN 3 3 88.2 82.6 77.0
2b - Attention 6 0 88.7 85.3 79.8
表 4: LORE 的消融研究。 A-c、A-r和Acc指的是列索引、行索引和所有逻辑索引的准确性。 所有这些模型都是根据“实现”部分从头开始训练的。

执行

LORE 在表格图像上进行训练和评估,最大边缩放为固定大小 1024(对于 SciTSR 和 PubTabNet 为 512),短边调整大小相同。 该模型训练了 100 个 epoch,初始学习率选择为 1×104,在所有基准的第 70 和 90 个 epoch 衰减到 1×1051×106 所有实验均在具有 4 个 NVIDIA Tesla V100 GPU 的平台上进行。 我们使用 DLA-34 (Yu 等人 2018) 主干网、输出步幅 R=4 和通道数 d=256 在WTW数据集上实现时,按照Long等人(2021)配备了角点估计。 对于基础回归器和堆叠回归器,注意力层的数量均设置为 3。 我们运行模型 5 次并取平均性能。

基准测试结果

首先,我们将 LORE 与直接预测逻辑位置的模型进行比较,包括 Res2TIM (Xue, Li, and Tao 2019) 和 TGRNet (Xue 等人 2021) 我们在WTW数据集上调整Xue等人(2021)提供的模型来进行彻底的比较。 如表1所示,LORE 显着优于之前的方法。 基线方法只能在来自科学文章的数字生成表格图像(即 TableGraph-24K)相对简单的基准上产生还过得去的结果。

然后,我们将 LORE 与通过基于关系的指标挖掘单元邻接关系的模型进行比较:TabStrNet (Raja、Mondal 和 Jawahar 2020)、LGPMA (Qiao 等人 2021)、 TOD (Raja、Mondal 和 Jawahar 2022)、FLAGNet (Liu 等人 2021) 和 NCGM (Liu 等人 2022) 如前所述,LORE 的邻接关系结果是从输出逻辑位置导出的。 结果如表2所示。 值得注意的是,LORE 在扫描文档和照片的 ICDAR-2019 和 WTW 等具有挑战性的基准测试中表现要好得多。 这些数据集中的表格具有更多的跨越单元和扭曲(Liu 等人 2022;Long 等人 2021) 实验表明,LORE 能够预测邻接关系,作为逻辑位置回归的副产品。

最后,我们针对 Image2Text (Li 等人 2020) 和 EDD (Zhong, ShafieiBavani, and Jimeno Yepes 2020) 评估标记序列生成场景上的 LORE,结果也从 LORE 的输出逻辑位置导出。 特别是,由于 TableBank 数据集不提供细胞的空间位置,因此我们实现了在 SciTSR(TableBank 大小的 1/10)上训练的 LORE 来对其进行评估。 结果如表3所示。 实验结果表明,即使 LORE 在更少的样本上进行训练,LORE 也更有效。

消融研究

为了研究我们提出的 LORE 的关键组成部分如何对逻辑位置回归做出贡献,我们对 WTW 数据集进行了深入的消融研究。 结果如表4所示。 首先,我们通过训练几个打开和关闭的模型来评估单元间损失 Linter 和单元内损失 Lintra 的有效性。 根据实验 1a 和 1b 的结果,我们看到单元间监督将性能提高了 +0.8%Acc。 从 1a 和 1c 来看,小区内监督受益更多 +1.8%Acc,因为它构成了消息传递和聚合机制,根据以下公式,该机制对小区内关系的关注少于对小区间关系的关注它的细胞间性质。 两种监督结合起来,效果最佳。

然后我们评估模型架构的影响,即消息聚合的模式和级联框架的重要性。 在实验 2a 中,我们用类似于基于图的 TSR 模型(Qasim,Mahmood 和 Shafait 2019;Xue 等人 2021) 的图注意编码器替换了自注意编码器,具有等量的参数与 LORE。 它会导致性能持续下降。 基于图的编码器仅根据欧氏距离聚合来自每个节点的前K个最近特征的信息,这对于表结构是有偏差的。 在实验 2b 中,我们使用单个 6 层回归器而不是两个级联 3 层回归器。 我们可以观察到从 1d 到 2b 的性能下降了 3.1%Acc,这表明级联框架可以更好地对不同单元的逻辑位置之间的依赖关系和约束进行建模。

Refer to caption
(a) Original structure
Refer to caption
(b) Shifted structure
图4: 结构严重转变的一个例子。 其邻接关系F-1为84%,逻辑定位准确率为43%。

范式之间的进一步比较

在本节中,我们进一步比较之前介绍的不同 TSR 范式的模型。 先前预测逻辑位置的方法缺乏对这些范式之间的全面比较和分析。 我们通过受控实验展示了 LORE 如何克服基于邻接和基于标记的方法的局限性。

仅单元格的相邻性不足以表示表格结构。 以前的方法采用基于空间位置的启发式规则(Liu等人2022)或图形优化(Qasim,Mahmood和Shafait 2019)来重建表格。 然而,要使预定义部分兼容不同类型的表和注释的数据集,需要进行繁琐的修改。 此外,基于邻接的度量有时无法反映表结构的正确性,如图4所示。 进行实验以定量验证这一论点。 我们将 LORE 的堆叠回归器的线性层转变为配对细胞特征的邻接分类层,并采用 NCGM (Liu 等人 2022) 中的后处理来重建表格。 结果见表5 虽然这个修改后的模型(Adj. 范例)在基于邻接的指标评估的最先进基线上取得了有竞争力的结果,但与 LORE(Log.paradigm)相比,从启发式规则获得的逻辑位置的准确性明显下降。 范式),特别是在 WTW 上,它包含更多的跨越单元和扭曲。

Refer to caption
(a) Attention activation of the base regressor
Refer to caption
(b) Attention activation of the stacking regressor
Refer to caption
(c) Attention activation of the non-cascade regressor
图5: 两个表格单元格级联和非级联回归器中自注意力权重的可视化。 文本掩码代表表格单元格,为了清晰起见,仅显示前 20 个权重。
Data Paradigm Adj. Metrics Log. Metrics
P R F-1 A-all A-sp
Sci-c Adj. 98.6 98.9 98.7 94.7 63.5
Log. 99.4 99.2 99.3 97.3 87.7
WTW Adj. 95.0 93.7 94.3 51.9 20.2
Log. 94.5 95.9 95.1 82.9 63.8
表 5: 邻接性和逻辑位置范式的评估结果。 A-all和A-sp是指所有单元格和跨单元格(超过一行/列)的逻辑位置精度。 Sci-c 表示 SciTSR-comp。

基于标记序列的模型利用图像编码器和序列解码器来预测标签序列。 由于标记语言具有大量控制序列格式化训练样式,因此它们可以被视为标签中的噪声并阻碍模型(Xue等人2021) 它需要更多的训练样本和计算成本。 如表6所示,EDD模型在PubTabNet数据集上的训练样本数量是LORE的十倍以上。 此外,由于顺序解码模式,推理过程相当耗时(见表6),而其他范式的模型对每个单元进行并行计算。 平均推理时间是根据 PubTabNet 的验证集计算得出的,两个模型的图像大小均调整为 1280×1280

级联回归器的进一步分析

我们进行实验来研究级联框架对逻辑坐标预测的影响。 在图5中,我们可视化了两个单元的级联/单个回归器的最后一个编码器层的注意力图,即表4中的模型1d和2b。 在级联框架中,图5(a)中的基本回归器专注于标题单元(上部或左侧)来计算逻辑位置。 而图5(b)中的堆叠回归器更关注周围的单元格,以发现逻辑位置之间更精细的依赖关系,并确保预测受到自然约束,这符合人类直觉设计一张桌子。 然而,图5(c)中的非级联回归器只能起到类似于基本回归器的作用,这遗漏了逻辑位置预测的重要信息。

#Train Samples Inference Time
EDD 339000 14.8s
LORE 20000 0.45s
表 6: LORE 和标记生成模型 EDD 在训练样本和平均推理时间方面的比较。
DLA-34 LORE
#Params 15.9 24.2
FLOPs 74.6 75.2
表 7: 计算分析。 参数数量的单位为百万,FLOP 的单位为千兆。

计算分析

我们在表7中总结了LORE的模型大小和推理操作,输入图像为1024×1024,单元数为32。 据观察,LORE 的复杂度与具有相同主干的基于关键点的检测器(Zhou、Wang 和 Krähenbühl 2019) 处于同等水平,显示了 LORE 的效率。

结论

总之,我们提出了 LORE,一个 TSR 框架,它可以有效地从输入图像中回归表格单元格的空间位置和逻辑位置。 此外,它通过使用级联回归器以及单元间和单元内的监督来对逻辑位置之间的依赖性和约束进行建模。 LORE 易于实施并获得有竞争力的结果,无需繁琐的后处理或顺序解码策略。 实验表明,LORE 在各种指标下都优于最先进的 TSR 方法,并克服了之前 TSR 范式的局限性。

致谢

该工作得到国家重点研发计划(No. 2018YFC2002603),国家自然科学基金(批准号:2018YFC2002603) 61972349),中央高校基本科研业务费专项资金(No.61972349) 226-2022-00064),以及阿里巴巴-浙江大学前沿技术联合研究院。

参考

  • Chi et al. (2019) Chi, Z.; Huang, H.; Xu, H.-D.; Yu, H.; Yin, W.; and Mao, X.-L. 2019. Complicated table structure recognition. arXiv preprint arXiv:1908.04729.
  • Desai, Kayal, and Singh (2021) Desai, H.; Kayal, P.; and Singh, M. 2021. TabLeX: a benchmark dataset for structure and content information extraction from scientific tables. In International Conference on Document Analysis and Recognition, 554–569. Springer.
  • Gao et al. (2019) Gao, L.; Huang, Y.; Déjean, H.; Meunier, J.-L.; Yan, Q.; Fang, Y.; Kleber, F.; and Lang, E. 2019. ICDAR 2019 competition on table detection and recognition (cTDaR). In 2019 International Conference on Document Analysis and Recognition (ICDAR), 1510–1515. IEEE.
  • Göbel et al. (2012) Göbel, M.; Hassan, T.; Oro, E.; and Orsi, G. 2012. A methodology for evaluating algorithms for table understanding in PDF documents. In Proceedings of the 2012 ACM symposium on Document engineering, 45–48.
  • Göbel et al. (2013) Göbel, M.; Hassan, T.; Oro, E.; and Orsi, G. 2013. ICDAR 2013 table competition. In 2013 12th International Conference on Document Analysis and Recognition, 1449–1453. IEEE.
  • Kipf and Welling (2017) Kipf, T. N.; and Welling, M. 2017. Semi-Supervised Classification with Graph Convolutional Networks. In International Conference on Learning Representations (ICLR).
  • Li et al. (2020) Li, M.; Cui, L.; Huang, S.; Wei, F.; Zhou, M.; and Li, Z. 2020. TableBank: Table Benchmark for Image-based Table Detection and Recognition. In Proceedings of the 12th Language Resources and Evaluation Conference, 1918–1925. Marseille, France: European Language Resources Association. ISBN 979-10-95546-34-4.
  • Liu et al. (2022) Liu, H.; Li, X.; Liu, B.; Jiang, D.; Liu, Y.; and Ren, B. 2022. Neural Collaborative Graph Machines for Table Structure Recognition. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 4533–4542.
  • Liu et al. (2021) Liu, H.; Li, X.; Liu, B.; Jiang, D.; Liu, Y.; Ren, B.; and Ji, R. 2021. Show, Read and Reason: Table Structure Recognition with Flexible Context Aggregator. In Proceedings of the 29th ACM International Conference on Multimedia, 1084–1092.
  • Long et al. (2021) Long, R.; Wang, W.; Xue, N.; Gao, F.; Yang, Z.; Wang, Y.; and Xia, G.-S. 2021. Parsing Table Structures in the Wild. In Proceedings of the IEEE/CVF International Conference on Computer Vision, 944–952.
  • Papineni et al. (2002) Papineni, K.; Roukos, S.; Ward, T.; and Zhu, W.-J. 2002. Bleu: a method for automatic evaluation of machine translation. In Proceedings of the 40th annual meeting of the Association for Computational Linguistics, 311–318.
  • Qasim, Mahmood, and Shafait (2019) Qasim, S. R.; Mahmood, H.; and Shafait, F. 2019. Rethinking table recognition using graph neural networks. In 2019 International Conference on Document Analysis and Recognition (ICDAR), 142–147. IEEE.
  • Qiao et al. (2021) Qiao, L.; Li, Z.; Cheng, Z.; Zhang, P.; Pu, S.; Niu, Y.; Ren, W.; Tan, W.; and Wu, F. 2021. Lgpma: Complicated table structure recognition with local and global pyramid mask alignment. In International Conference on Document Analysis and Recognition, 99–114. Springer.
  • Raja, Mondal, and Jawahar (2020) Raja, S.; Mondal, A.; and Jawahar, C. 2020. Table structure recognition using top-down and bottom-up cues. In European Conference on Computer Vision, 70–86. Springer.
  • Raja, Mondal, and Jawahar (2022) Raja, S.; Mondal, A.; and Jawahar, C. 2022. Visual Understanding of Complex Table Structures from Document Images. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, 2299–2308.
  • Schreiber et al. (2017) Schreiber, S.; Agne, S.; Wolf, I.; Dengel, A.; and Ahmed, S. 2017. Deepdesrt: Deep learning for detection and structure recognition of tables in document images. In 2017 14th IAPR international conference on document analysis and recognition (ICDAR), volume 1, 1162–1167. IEEE.
  • Siddiqui et al. (2019) Siddiqui, S. A.; Fateh, I. A.; Rizvi, S. T. R.; Dengel, A.; and Ahmed, S. 2019. Deeptabstr: Deep learning based table structure recognition. In 2019 International Conference on Document Analysis and Recognition (ICDAR), 1403–1409. IEEE.
  • Smock, Pesala, and Abraham (2022) Smock, B.; Pesala, R.; and Abraham, R. 2022. PubTables-1M: Towards comprehensive table extraction from unstructured documents. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 4634–4642.
  • Vaswani et al. (2017) Vaswani, A.; Shazeer, N.; Parmar, N.; Uszkoreit, J.; Jones, L.; Gomez, A. N.; Kaiser, Ł.; and Polosukhin, I. 2017. Attention is all you need. Advances in neural information processing systems, 30.
  • Xu et al. (2020) Xu, Y.; Li, M.; Cui, L.; Huang, S.; Wei, F.; and Zhou, M. 2020. Layoutlm: Pre-training of text and layout for document image understanding. In Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 1192–1200.
  • Xu et al. (2021) Xu, Y.; Xu, Y.; Lv, T.; Cui, L.; Wei, F.; Wang, G.; Lu, Y.; Florencio, D.; Zhang, C.; Che, W.; Zhang, M.; and Zhou, L. 2021. LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding. In Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics (ACL) 2021.
  • Xue, Li, and Tao (2019) Xue, W.; Li, Q.; and Tao, D. 2019. ReS2TIM: Reconstruct syntactic structures from table images. In 2019 International Conference on Document Analysis and Recognition (ICDAR), 749–755. IEEE.
  • Xue et al. (2021) Xue, W.; Yu, B.; Wang, W.; Tao, D.; and Li, Q. 2021. TGRNet: A Table Graph Reconstruction Network for Table Structure Recognition. In Proceedings of the IEEE/CVF International Conference on Computer Vision, 1295–1304.
  • Ye et al. (2021) Ye, J.; Qi, X.; He, Y.; Chen, Y.; Gu, D.; Gao, P.; and Xiao, R. 2021. PingAn-VCGroup’s Solution for ICDAR 2021 Competition on Scientific Literature Parsing Task B: Table Recognition to HTML. arXiv preprint arXiv:2105.01848.
  • Yu et al. (2018) Yu, F.; Wang, D.; Shelhamer, E.; and Darrell, T. 2018. Deep layer aggregation. In Proceedings of the IEEE conference on computer vision and pattern recognition, 2403–2412.
  • Zhang et al. (2022) Zhang, Z.; Zhang, J.; Du, J.; and Wang, F. 2022. Split, embed and merge: An accurate table structure recognizer. Pattern Recognition, 126: 108565.
  • Zheng et al. (2021) Zheng, X.; Burdick, D.; Popa, L.; Zhong, X.; and Wang, N. X. R. 2021. Global table extractor (gte): A framework for joint table identification and cell structure recognition using visual context. In Proceedings of the IEEE/CVF winter conference on applications of computer vision, 697–706.
  • Zhong, ShafieiBavani, and Jimeno Yepes (2020) Zhong, X.; ShafieiBavani, E.; and Jimeno Yepes, A. 2020. Image-based table recognition: data, model, and evaluation. In European Conference on Computer Vision, 564–580. Springer.
  • Zhou, Wang, and Krähenbühl (2019) Zhou, X.; Wang, D.; and Krähenbühl, P. 2019. Objects as points. arXiv preprint arXiv:1904.07850.