自然語言處理
From Wikipedia, the free encyclopedia
- 喺人類當中自然噉發展出嚟、平時講嘢會用嘅語言就係所謂嘅自然語言-好似英文、粵語同日本話等都係自然語言(相對於例如程式語言等嘅形式語言);
- NLP 嘅數據來源可以分做聲同字詞兩大類-前者指事先錄低嘅人講嘢嘅聲,而後者就係以文字形式呈現嘅語言,來源可以係網頁同各種嘅文件,例如好多 NLP 程式開始嗰陣都會有陳述式教部電腦由邊個邊個網頁嘅 HTML 碼度攞要處理嗰段字;
- 攞到要處理嘅數據做
input
之後,個 NLP 程式要有啲特定嘅演算法嚟處理段字,最後得出某啲output
;output
係乜就視用途而定-有啲程式目的係要翻譯段字,所以input
係一段字,而output
係一段用目標語言寫、意思等同input
嗰段字嘅字[3]。
喺廿一世紀初,NLP 俾人工智能研究者視為人工智能其中一個最重要嘅領域,例如好出名嘅 Google 翻譯就用咗 NLP 技術嚟做翻譯[4],而且 NLP 方面嘅技術仲可以攞嚟做傾偈機械人等嘅休閒用途[5]。因為 NLP 咁有用,Python 程式語言仲有埋 NLTK 呢套函式庫專做 NLP 相關嘅工作[6]。