新意图发现旨在从用户话语中发现新的意图类别,以扩展支持的意图类别集。这是实用对话系统的开发和服务扩展的关键任务。尽管这个问题很重要,但文献中仍未对其进行充分探讨 ...

0 0 0 0 2024/04/29 arXiv:2205.12914v1 aben2022

最近,文本、布局和图像的多模态预训练在视觉丰富的文档理解任务中实现了 SOTA 性能,这表明了跨不同模态联合学习的巨大潜力。在本文中,我们提出了 LayoutXLM,一种用于多语言文档理解的多模态预训练模型,旨在消除语言障碍,实现视觉丰富的文档理解。为了准确评估 LayoutXLM,我们还引入了名为 XFUND 的多语言表单理解基准数据集,其中包含 7 种语言(中文、日语、西班牙语、法语、意大利语、德语、葡萄牙语)的表单理解样本,并手动标记键值对每种语言 ...

0 0 0 0 2024/04/24 arXiv:2104.08836v3 aben2022

我们提出了一种新的表格结构识别(TSR)方法,称为 TSRFormer,可以从各种表格图像中稳健地识别具有几何扭曲的复杂表格的结构。与之前的方法不同,我们将表分隔线预测制定为线回归问题而不是图像分割问题,并提出了一种新的基于 DETR 的两阶段分隔符预测方法,称为 \textbf{Sep}arator \textbf{RE}gression \textbf{ TR}ansformer (SepRETR),直接从表格图像预测分隔线。为了使两阶段DETR框架高效且有效地工作于分隔线预测任务,我们提出了两项​​改进:1)先验增强匹配策略来解决DETR收敛速度慢的问题; 2)一种新的交叉注意模块,可以直接从高分辨率卷积特征图中采样特征,从而以较低的计算成本实现高定位精度 ...

0 0 0 0 2024/04/19 arXiv:2208.04921v1 aben2022

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)