光学字符识别
对文本资料的图像文件进行识别,获取文字信息 / 维基百科,自由的 encyclopedia
光学字符识别(英语:Optical Character Recognition,缩写:OCR)是指对包含文本内容的图像或视频进行处理和识别,并提取其中所包含的文字及排版信息的过程。例如,一个常见的应用是将包含文档图像的不可编辑状态的 PDF 文档通过 OCR 技术识别后,转换为可编辑状态的 Word 格式文档[1]。
通常来说,根据不同文本内容的特性而言,OCR 技术的应用场景大致可分为以下几类:
- 印刷文本识别:印刷文本通常指报刊、杂志、文档、小票等使用现代计算机字体编排并印刷的文本内容。这类文本内容通常具有清晰一致的字体、间距等,因此识别技术相对成熟,并被广泛应用于纸质档案、报刊的数字化上[2]。
- 手写文本识别:相较于具有固定字体的印刷文本而言,手写文本往往根据不同的书写者以及书写工具会具有极大的变化,因此其识别难度相较于印刷文本而言要更高。手写体识别可以帮助用户快速将手写的笔记内容数字化输入到计算机中,也被用在一些电子备忘录中来对用户的手写笔记内容进行检索[3]。此外,由手写文本识别进一步衍生的一个应用则是签名笔迹认证,这类方法用于比对签名的真实性。
- 公式文本识别:数学公式通常由大量符号及数字组成,由于根式,分式等规则的存在,数学公式往往存在二维结构,即并不能保证识别的顺序一定符合固定的阅读顺序。因此,数学公式的 OCR 模型往往显著有别于常规的自然语言文本 OCR 处理技术。通常来说,数学公式的 OCR 识别需要借助使用 LaTeX 等结构化的文档标记语言来实现,即,OCR 给出的输出是一组 LaTeX 标记符号[4]。
- 场景文本识别:场景文本识别,有时也被称作通用文本识别技术。这类识别技术能够对任意场景下的图片中包含的任意形式的文本进行识别,包括但不仅限于:街边商铺的招牌、超市内商品中的文本、合影中人物衣着上的文本、城市建筑上的商标名称等等。这类技术已经被应用到了许多应用中,例如智能手机中允许搜索或提取相册中带有文本内容的图像[5][6],聊天软件中允许直接复制对方发送图片中的文本内容等[7]。
- 古籍文本识别:古籍文档与现代印刷的排版和布局通常具有很大的差别,例如,阅读顺序可能自上而下,自右向左等。因此,使用基于现代文档数据开发的 OCR 技术和模型在包含这些内容的图像上的识别效果往往不够好。因此,在对大量古籍进行数字化保护的过程中,催生了专门针对该类型文档内容进行识别的 OCR 技术[8]。