光學字元辨識

光學字元辨識（英語：Optical Character Recognition，縮寫：OCR）是指對包含文字內容的圖像或視訊進行處理和辨識，並提取其中所包含的文字及排版資訊的過程。例如，一個常見的應用是將包含文件圖像的不可編輯狀態的 PDF 文件通過 OCR 技術辨識後，轉換為可編輯狀態的 Word 格式文件^[1]。

可攜式掃描器利用光學字元辨識，將紙本資料紀錄至電腦的過程

通常來說，根據不同文字內容的特性而言，OCR 技術的應用場景大致可分為以下幾類：

印刷文字辨識：印刷文字通常指報刊、雜誌、文件、小票等使用現代電腦字型編排並印刷的文字內容。這類文字內容通常具有清晰一致的字型、間距等，因此辨識技術相對成熟，並被廣泛應用於紙質檔案、報刊的數位化上^[2]。
手寫文字辨識：相較於具有固定字型的印刷文字而言，手寫文字往往根據不同的書寫者以及書寫工具會具有極大的變化，因此其辨識難度相較於印刷文字而言要更高。手寫體辨識可以幫助使用者快速將手寫的筆記內容數位化輸入到電腦中，也被用在一些電子備忘錄中來對使用者的手寫筆記內容進行檢索^[3]。此外，由手寫文字辨識進一步衍生的一個應用則是簽章筆跡認證，這類別方法用於比對簽章的真實性。
公式文字辨識：數學公式通常由大量符號及數位組成，由於根式，分式等規則的存在，數學公式往往存在二維結構，即並不能保證辨識的順序一定符合固定的閱讀順序。因此，數學公式的 OCR 模型往往顯著有別於常規的自然語言文字 OCR 處理技術。通常來說，數學公式的 OCR 辨識需要藉助使用 LaTeX 等結構化的文件標記式語言來實現，即，OCR 給出的輸出是一組 LaTeX 標記符號^[4]。
場景文字辨識：場景文字辨識，有時也被稱作通用文字辨識技術。這類辨識技術能夠對任意場景下的圖片中包含的任意形式的文字進行辨識，包括但不僅限於：街邊商鋪的招牌、超市內商品中的文字、合影中人物衣著上的文字、城市建築上的商標名稱等等。這類技術已經被應用到了許多應用中，例如智慧型手機中允許搜尋或提取相簿中帶有文字內容的圖像^[5]^[6]，聊天軟體中允許直接複製對方傳送圖片中的文字內容等^[7]。
古籍文字辨識：古籍文件與現代印刷的排版和布局通常具有很大的差別，例如，閱讀順序可能自上而下，自右向左等。因此，使用基於現代文件資料開發的 OCR 技術和模型在包含這些內容的圖像上的辨識效果往往不夠好。因此，在對大量古籍進行數位化保護的過程中，催生了專門針對該類型文件內容進行辨識的 OCR 技術^[8]。

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

光學字元辨識

過程

輸入

前期處理

二值化

圖像降噪

傾斜校正

中期處理

版面分析

字元切割

字元辨識

版面還原

後期處理

輸出

發展歷史

主流實現

參考來源

Wikiwand - on