Loading AI tools
電腦視覺文字識別 来自维基百科,自由的百科全书
光學字元辨識(英語:Optical Character Recognition,縮寫:OCR)是指對包含文字內容的圖像或視訊進行處理和辨識,並提取其中所包含的文字及排版資訊的過程。例如,一個常見的應用是將包含文件圖像的不可編輯狀態的 PDF 文件通過 OCR 技術辨識後,轉換為可編輯狀態的 Word 格式文件[1]。
通常來說,根據不同文字內容的特性而言,OCR 技術的應用場景大致可分為以下幾類:
對於不同的圖像格式,有著不同的儲存格式、不同的壓縮方式,目前有OpenCV、CxImage等。
如今數位網路攝影機拍攝的圖片,大多數是彩色圖像,彩色圖像所含資訊量巨大,較為不適用於OCR技術。
對於圖片的內容,我們可以簡單的分為前景與背景,為了讓電腦更快的、更好地進行OCR相關計算,我們需要先對彩色圖進行處理,使圖片只剩下前景資訊與背景資訊。二值化也可以簡單地將其理解為「黑白化」。
對於不同的圖像,噪點的定義可能不同,根據噪點的特徵進行去噪的過程,稱為降噪。
由於一般使用者,在拍照文件時,難以拍攝得完全符合水平平齊與豎直平齊,因此拍照出來的圖片不可避免的產生傾斜,這就需要圖像處理軟體進行校正。
將文件圖片分段落,分行的過程稱為版面分析,由於實際文件的多樣性、複雜性,此步驟目前仍待最佳化。
由於拍照、書寫條件的限制,經常造成字元粘連、斷筆,直接使用此類圖像進行OCR分析將會極大限制OCR效能。因此需要進行字元切割,即:將不同字元之間分割開。
早期以模板匹配為主,後期以特徵提取為主。由於文字的位移、筆畫的粗細、斷筆、粘連、旋轉等因素的影響,極大地影響特徵提取難度。
人們希望辨識後的文字,仍然像原始文件圖片那樣排列,段落、位置、順序不變地輸出到Word文件、PDF文件等,這一過程稱為版面還原。
根據特定的語言上下文的關係,對辨識結果進行校正。
將辨識出的字元以某一格式的文字輸出。
OCR的概念是在1929年由德國科學家Tausheck最先提出來,並申請了專利。[來源請求]後來美國科學家Handel也提出了利用技術對文字進行辨識的想法。[來源請求]中國最早的OCR商業應用是由科學家王慶人教授在南開大學開發出來的,並在美國市場投入商業使用。[來源請求]日本在20世紀60年代開始研究OCR辨識理論,開發了郵政編碼辨識系統。[來源請求]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.