AI测评丨十二款开源OCR开箱测评，文字识别哪家强

OCR（Optical Character Recognition，光学字符识别）作为信息爆炸时代的“炼金术士”，以其高效且相对精确的性能，在海量纸质文档、扫描件、图片的文字信息提取方面发挥着举足轻重的作用。其广泛应用于教育、医疗、交通等多个行业领域，其重要性不言而喻。然而，目前开源OCR工具种类繁多，不同场景图像的识别效果却参差不齐，这给开发人员的选型工作带来了不小的挑战。为了尽可能全面测试OCR工具的识别能力，本次测评精心挑选了12款开源OCR工具，在五类不同数据集上进行横向评比，以期为用户提供更为准确、客观的选型参考。

开源OCR介绍与评测系列共分为三篇，本文为文字识别能力篇，评测开源OCR基本的文字识别能力，包括印刷中文、印刷英文、手写中文等三类基本类型，以及复杂自然场景和变形字体两类附加测评；第二篇为结构信息能力篇，对表格、票证等结构化信息的OCR能力进行测评；第三篇为OCR Free评测篇，评测开源多模态大模型对图片信息的提取和分析能力。

本次开源OCR文字识别能力测评选取了12款OCR工具，其中，独立工具有：PaddleOCR、RapidOCR、读光（开源版）、ChineseOCR、EasyOCR、Tesseract、OcrLiteOnnx、Surya、docTR、JavaOCR；文档分析OCR组件：RagFlow、Unstructured。（备注：本次测评均使用OCR工具自身提供的预训练模型进行测试，测试均采用工具的示例中提供的参数设置。除开源工具以外，选取百度OCR云服务测试结果作为参照。）

各OCR工具的测试版本如下：

l PaddleOCR V2.7.5

l 读光OCR

l DocTR V0.7.1

l Tesseract V5.3.4

l ChineseOCR

l OcrLiteOnnx V1.6.1

l RapidOCR V1.3.22

l JavaOCR V1.0

l EasyOCR V1.7.0

l RAGflow V0.7.0

l Unstructured V0.14.0

l Surya V0.4.9

l 百度OCR V2.0

为了全面评测OCR工具各种场景下的识别和解析能力，本次测评收集整理了多种类型文字识别的图片数据，包括印刷中英文、自然场景、手写文字和验证码等方面数据集，具体文字识别数据集分类如下：

图片.png

文字识别能力主要评测OCR工具对文字的检测和识别能力，包括支持识别的字符集规模（生僻字），字体形变（字体、艺术字），图像旋转、形变、干扰信息、明暗、模糊等外部因素影响。

备注：文字识别能力只考察是否正确识别出字符，不考察文字结构信息（即输出结果的文字顺序）。其中，中文统计粒度为字，英文为单词（区分大小写），中英文标点符号相互区别。

l 字符识别准确率（Precision）：正确识别的字符数/识别输出总字符数

l 字符识别召回率（Recall）：正确识别的字符数/验证集总字符数

l 字符识别综合评分（F-Score）：2*Precision*Recall/(Precision+Recal)

l 平均响应时间：基准样本识别总时间/样本数量。

测评结果

(1)印刷中文的综合测评结果为：

图片.png

(2) 印刷英文的综合测评结果为：

图片.png

(3)变形字体的艺术字测评结果为：

图片.png

(4)自然场景的街景图片测评结果为：

图片.png

(5) 手写中文的综合测评结果为：

图片.png

详细测评结果请在文末关注公众号后下载完整测评报告查看。

测评总结

印刷中文识别准确度测试中，综合前三分别是RapidOCR、RagFlow和Surya。

图片.png

在印刷英文识别准确度测试环节，综合前三分别是Surya、Unstructured和读光OCR，还是国外开源软件领先。

图片.png

在各种变形字体（艺术字、验证码等非标准字体）场景下，由于本次测评仅采用各OCR工具自身提供的预训练模型进行测试，识别准确度均较低，如需提高变形字体的准确率需要针对变形字体进行专项训练。

图片.png

在复杂多行文字的街景场景中，前三名分别是RagFlow、RapidOCR和PaddleOCR，它们的综合评分相当接近，均略高于70%。

图片.png

在手写中文识别场景下，综合前三分别是RapidOCR、ChineseOCR和RagFlow。

图片.png

在响应时间方面，表现优异的有OcrLiteOnnx（0.01秒级）、RagFlow（0.1秒级），响应非常快。另外，ChineseOCR、EasyOCR和RapidOCR表现也不错，平均时间小于1秒。

图片.png

详细测评结果请在文末关注公众号后下载完整测评报告查看。

随着大语言模型的快速发展和应用，我们对OCR识别的需求不再局限于字的识别，对于结构化信息抽取的需求越来越大。我们将在下一篇将对开源OCR工具的结构分析能力进行评测。同时，针对OCR Free类的大模型，如TextMoneky、DocPedia、UReader、Pix2struct、Donut，以及国内研究的InterVL等，我们计划开展一次OCR Free类评测，敬请期待。

关注公众号后，再刷新页面或者输入关键字“OCR”后可下载完整测评报告PDF。

图片.png

通知公告

AI测评丨十二款开源OCR开箱测评，文字识别哪家强

关于我们

新闻中心

友情链接

关注更多

020-22912764

020-22912764

8:40-17:30