- 名称
- EfficientOCR: An Extensible, Open-Source Package for Efficiently Digitizing World Knowledge
- 描述
数十亿公共领域文档仍然被困在硬拷贝中或缺乏准确的数字化。现代自然语言处理方法无法用于索引、检索和总结其文本;进行计算文本分析;或提取信息进行统计分析,这些文本不能纳入语言模型训练。鉴于公共领域文本的多样性和数量庞大,大规模释放它们需要准确的光学字符识别 (OCR)、部署成本极低,并且样本效率高,可以根据新颖的集合、语言和字符集进行定制 ...