aben2022的文档

aben2022

个性签名 ...

New Intent Discovery with Pre-training and Contrastive Learning

新意图发现旨在从用户话语中发现新的意图类别，以扩展支持的意图类别集。这是实用对话系统的开发和服务扩展的关键任务。尽管这个问题很重要，但文献中仍未对其进行充分探讨 ...

0 0 0 0 2024/04/29 arXiv:2205.12914v1 aben2022

LayoutXLM: Multimodal Pre-training for Multilingual Visually-rich Document Understanding

最近，文本、布局和图像的多模态预训练在视觉丰富的文档理解任务中实现了 SOTA 性能，这表明了跨不同模态联合学习的巨大潜力。在本文中，我们提出了 LayoutXLM，一种用于多语言文档理解的多模态预训练模型，旨在消除语言障碍，实现视觉丰富的文档理解。为了准确评估 LayoutXLM，我们还引入了名为 XFUND 的多语言表单理解基准数据集，其中包含 7 种语言（中文、日语、西班牙语、法语、意大利语、德语、葡萄牙语）的表单理解样本，并手动标记键值对每种语言 ...

0 0 0 0 2024/04/24 arXiv:2104.08836v3 aben2022

TSRFormer: Table Structure Recognition with Transformers

我们提出了一种新的表格结构识别（TSR）方法，称为 TSRFormer，可以从各种表格图像中稳健地识别具有几何扭曲的复杂表格的结构。与之前的方法不同，我们将表分隔线预测制定为线回归问题而不是图像分割问题，并提出了一种新的基于 DETR 的两阶段分隔符预测方法，称为 \textbf{Sep}arator \textbf{RE}gression \textbf{ TR}ansformer (SepRETR)，直接从表格图像预测分隔线。为了使两阶段DETR框架高效且有效地工作于分隔线预测任务，我们提出了两项改进：1）先验增强匹配策略来解决DETR收敛速度慢的问题； 2）一种新的交叉注意模块，可以直接从高分辨率卷积特征图中采样特征，从而以较低的计算成本实现高定位精度 ...

0 0 0 0 2024/04/19 arXiv:2208.04921v1 aben2022

New Intent Discovery with Pre-training and Contrastive Learning

LayoutXLM: Multimodal Pre-training for Multilingual Visually-rich Document Understanding

TSRFormer: Table Structure Recognition with Transformers

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您在阅读时勇敢地改正翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）