大量文档数据以非结构化形式存在,例如没有任何文本信息的原始图像。设计实用的文档图像分析系统是一项有意义但具有挑战性的任务。在之前的工作中,我们提出了一种智能文档分析系统PP-Structure ...
0 0 0 2024/04/19 arXiv:2210.05391v2 JayGee666
状态空间模型 (SSM) 已成为顺序建模领域的有力竞争者,挑战了 Transformers 的主导地位。与此同时,Mixture of Experts (MoE) 显着改进了基于 Transformer 的大型语言模型,包括最近最先进的开放模型。我们建议,为了释放 SSM 的扩展潜力,它们应该与 MoE 结合起来 ...
0 0 0 2024/04/19 arXiv:2401.04081v2 boboshen
当前以事件为中心的知识图高度依赖显式连接词来挖掘事件之间的关系。不幸的是,由于连接词的稀疏性,这些方法严重破坏了 EventKG 的覆盖范围。缺乏高质量的标记语料库进一步加剧了这个问题 ...
0 0 0 2024/04/19 arXiv:2106.08629v1 mfreee
我们提出了一种新的表格结构识别(TSR)方法,称为 TSRFormer,可以从各种表格图像中稳健地识别具有几何扭曲的复杂表格的结构。与之前的方法不同,我们将表分隔线预测制定为线回归问题而不是图像分割问题,并提出了一种新的基于 DETR 的两阶段分隔符预测方法,称为 \textbf{Sep}arator \textbf{RE}gression \textbf{ TR}ansformer (SepRE ...
0 0 0 2024/04/19 arXiv:2208.04921v1 aben2022
自动文本图像识别是计算机视觉领域的普遍应用。一种有效的方法是使用卷积循环神经网络(CRNN)以端到端(End2End)的方式完成任务。然而,众所周知,CRNN 无法检测多行图像和类 Excel 图像 ...
0 0 0 2024/04/19 arXiv:2011.08505v1 a1606441608
近年来,随着深度学习及其应用的兴起,手写文本识别得到了迅速发展。尽管深度学习方法显着提高了文本识别的性能,但即使在小的预处理或架构/优化元素发生变化时,也可以检测到性能上的重大偏差。这项工作遵循“最佳实践”的基本原理;强调简单而有效的经验实践,可以进一步帮助培训并提供性能良好的手写文本识别系统 ...
0 0 0 2024/04/19 arXiv:2404.11339v1 a1606441608
深度强化学习(RL)已成功应用于各种类似游戏的环境。然而,将深度强化学习应用于现实环境中的视觉导航是一项具有挑战性的任务。我们提出了一种新颖的学习架构,能够导航代理,例如 ...
0 0 0 2024/04/19 arXiv:1908.03627v2 siwufei
知识图谱多跳问答(KGQA)旨在在大规模知识图谱(KG)上找到距离自然语言问题中提到的主题实体多跳的答案实体。为了应对巨大的搜索空间,现有的工作通常采用两阶段的方法:首先检索与问题相关的相对较小的子图,然后对子图进行推理以准确地找到答案实体。尽管这两个阶段高度相关,但以前的工作采用了截然不同的技术解决方案来开发检索和推理模型,忽略了它们在任务本质上的相关性 ...
0 0 0 2024/04/19 arXiv:2212.00959v2 xodara

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)