arxiv EfficientOCR: An Extensible, Open-Source Package for Efficiently Digitizing World Knowledge

名称
EfficientOCR: An Extensible, Open-Source Package for Efficiently Digitizing World Knowledge
首页
https://yiyibooks.cn/arxiv/2310.10050v1/index.html
原始地址
https://arxiv.org/pdf/2310.10050.pdf
描述
数十亿公共领域文档仍然被困在硬拷贝中或缺乏准确的数字化。现代自然语言处理方法无法用于索引、检索和总结其文本;进行计算文本分析;或提取信息进行统计分析,这些文本不能纳入语言模型训练。鉴于公共领域文本的多样性和数量庞大,大规模释放它们需要准确的光学字符识别 (OCR)、部署成本极低,并且样本效率高,可以根据新颖的集合、语言和字符集进行定制 ...