cheng的文档

cheng

个性签名 ...

GTC: Guided Training of CTC Towards Efficient and Accurate Scene Text Recognition

连接主义时间分类（CTC）和注意力机制是最近场景文本识别工作中使用的两种主要方法。与基于注意力的方法相比，CTC 解码器的推理时间要短得多，但准确性较低。为了设计一个高效且有效的模型，我们提出了 CTC 的引导训练（GTC），其中 CTC 模型从更强大的注意力引导中学习更好的对齐和特征表示 ...

0 0 0 0 2024/04/09 arXiv:2002.01276v1 cheng

SVTR: Scene Text Recognition with a Single Visual Model

主要场景文本识别模型通常包含两个构建块：用于提取特征的视觉模型和用于文本校正的序列模型。这种混合架构虽然准确，但很复杂且效率较低。在本研究中，我们提出有了一个在分块图像标记化框架内用于场景文本识别的单一模型，该模型完全省去了顺序建模...... ...

0 0 0 0 2024/10/25 arXiv:2205.00159v2 cheng

EfficientOCR: An Extensible, Open-Source Package for Efficiently Digitizing World Knowledge

数十亿公共领域文档仍然被困在硬拷贝中或缺乏准确的数字化。现代自然语言处理方法无法用于索引、检索和总结其文本；进行计算文本分析；或提取信息进行统计分析，这些文本不能纳入语言模型训练。鉴于公共领域文本的多样性和数量庞大，大规模释放它们需要准确的光学字符识别 (OCR)、部署成本极低，并且样本效率高，可以根据新颖的集合、语言和字符集进行定制 ...

0 0 0 0 2024/04/02 arXiv:2310.10050v1 cheng

LAPDoc: Layout-Aware Prompting for Documents

使用大量纯文本数据训练大型语言模型 (LLM) 的最新进展导致跨许多领域和任务（包括特定于文档的任务）的强泛化。与此相反，有一种趋势是训练专为文档理解而定制的多模式 Transformer 架构，这些架构专门设计用于将文本输入与相应的文档布局融合。这涉及一个单独的微调步骤，需要额外的训练数据 ...

0 0 0 0 2024/03/28 arXiv:2402.09841v1 cheng

Layout and Task Aware Instruction Prompt for Zero-shot Document Image Question Answering

布局感知预训练模型在文档图像问答方面取得了重大进展。他们将额外的可学习模块引入到现有语言模型中，以从 OCR 工具获得的文本边界框坐标中捕获文档图像中的布局信息。然而，额外的模块需要对大量文档图像进行预训练 ...

0 0 0 0 2024/03/28 arXiv:2306.00526v4 cheng

An Open and Comprehensive Pipeline for Unified Object Grounding and Detection

Grounding-DINO是一种最先进的开放集检测模型，可处理多种视觉任务，包括开放药品检测（OVD）、工作站接地（PG）和引用表达理解（REC）。其工厂被广泛采用作为各种下游应用程序的主流架构。然而，尽管具有意义，原始的Grounding-DINO模型由于代码匮乏，缺乏全面的重要公开技术细节... ...

0 0 0 0 2025/01/21 arXiv:2401.02361v2 cheng

GTC: Guided Training of CTC Towards Efficient and Accurate Scene Text Recognition

SVTR: Scene Text Recognition with a Single Visual Model

EfficientOCR: An Extensible, Open-Source Package for Efficiently Digitizing World Knowledge

LAPDoc: Layout-Aware Prompting for Documents

Layout and Task Aware Instruction Prompt for Zero-shot Document Image Question Answering

An Open and Comprehensive Pipeline for Unified Object Grounding and Detection

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您在阅读时勇敢地改正翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）