欢迎来到中科测评
中科测评
服务热线:020-22912624

通知公告


  OCR(Optical Character Recognition,光学字符识别)作为信息爆炸时代的“炼金术士”,以其高效且相对精确的性能,在海量纸质文档、扫描件、图片的文字信息提取方面发挥着举足轻重的作用。其广泛应用于教育、医疗、交通等多个行业领域,其重要性不言而喻。然而,目前开源OCR工具种类繁多,不同场景图像的识别效果却参差不齐,这给开发人员的选型工作带来了不小的挑战。为了尽可能全面测试OCR工具的识别能力,本次测评精心挑选了12款开源OCR工具,在五类不同数据集上进行横向评比,以期为用户提供更为准确、客观的选型参考。

  开源OCR介绍与评测系列共分为三篇,本文为文字识别能力篇,评测开源OCR基本的文字识别能力,包括印刷中文、印刷英文、手写中文等三类基本类型,以及复杂自然场景和变形字体两类附加测评;第二篇为结构信息能力篇,对表格、票证等结构化信息的OCR能力进行测评;第三篇为OCR Free评测篇,评测开源多模态大模型对图片信息的提取和分析能力。

      本次开源OCR文字识别能力测评选取了12款OCR工具,其中,独立工具有:PaddleOCR、RapidOCR、读光(开源版)、ChineseOCR、EasyOCR、Tesseract、OcrLiteOnnx、Surya、docTR、JavaOCR;文档分析OCR组件:RagFlow、Unstructured。(备注:本次测评均使用OCR工具自身提供的预训练模型进行测试,测试均采用工具的示例中提供的参数设置。除开源工具以外,选取百度OCR云服务测试结果作为参照。)

各OCR工具的测试版本如下:

l  PaddleOCR V2.7.5

l  读光OCR

l  DocTR V0.7.1

l  Tesseract V5.3.4

l  ChineseOCR

l  OcrLiteOnnx V1.6.1

l  RapidOCR V1.3.22

l  JavaOCR V1.0

l  EasyOCR V1.7.0

l  RAGflow V0.7.0

l  Unstructured V0.14.0

l  Surya V0.4.9

l  百度OCR V2.0

为了全面评测OCR工具各种场景下的识别和解析能力,本次测评收集整理了多种类型文字识别的图片数据,包括印刷中英文、自然场景、手写文字和验证码等方面数据集,具体文字识别数据集分类如下:

图片.png

图片.png

文字识别能力主要评测OCR工具对文字的检测和识别能力,包括支持识别的字符集规模(生僻字),字体形变(字体、艺术字),图像旋转、形变、干扰信息、明暗、模糊等外部因素影响。

备注:文字识别能力只考察是否正确识别出字符,不考察文字结构信息(即输出结果的文字顺序)。其中,中文统计粒度为字,英文为单词(区分大小写),中英文标点符号相互区别。

l 字符识别准确率(Precision):正确识别的字符数/识别输出总字符数

l   字符识别召回率(Recall):正确识别的字符数/验证集总字符数

l 字符识别综合评分(F-Score):2*Precision*Recall/(Precision+Recal)

l 平均响应时间:基准样本识别总时间/样本数量。

测评结果

  (1)印刷中文的综合测评结果为:

图片.png

  (2) 印刷英文的综合测评结果为:

图片.png

  (3)变形字体的艺术字测评结果为:

图片.png

  (4)自然场景的街景图片测评结果为

图片.png

  (5) 手写中文的综合测评结果为:

图片.png

   详细测评结果请在文末关注公众号后下载完整测评报告查看。

测评总结

印刷中文识别准确度测试中,综合前三分别是RapidOCR、RagFlow和Surya。

图片.png

在印刷英文识别准确度测试环节,综合前三分别是Surya、Unstructured和读光OCR,还是国外开源软件领先。

图片.png

在各种变形字体(艺术字、验证码等非标准字体)场景下,由于本次测评仅采用各OCR工具自身提供的预训练模型进行测试,识别准确度均较低,如需提高变形字体的准确率需要针对变形字体进行专项训练。

图片.png

在复杂多行文字的街景场景中,前三名分别是RagFlow、RapidOCR和PaddleOCR,它们的综合评分相当接近,均略高于70%。

图片.png

  在手写中文识别场景下,综合前三分别是RapidOCR、ChineseOCR和RagFlow

图片.png

在响应时间方面,表现优异的有OcrLiteOnnx(0.01秒级)、RagFlow(0.1秒级),响应非常快。另外,ChineseOCR、EasyOCR和RapidOCR表现也不错,平均时间小于1秒。

图片.png

详细测评结果请在文末关注公众号后下载完整测评报告查看。

随着大语言模型的快速发展和应用,我们对OCR识别的需求不再局限于字的识别,对于结构化信息抽取的需求越来越大。我们将在下一篇将对开源OCR工具的结构分析能力进行评测。同时,针对OCR Free类的大模型,如TextMoneky、DocPedia、UReader、Pix2struct、Donut,以及国内研究的InterVL等,我们计划开展一次OCR Free类评测,敬请期待。

关注公众号后,再刷新页面或者输入关键字“OCR”后可下载完整测评报告PDF。

图片.png










Copyright ©中科测评,Inc.All rights reserved.  粤ICP备12004042号  Powered by CmsEasy