語言資源
用喺各種語言研究同埋處理嘅語言材料 From Wikipedia, the free encyclopedia
Remove ads
語言資源(粵拼:jyu5 jin4 zi1 jyun4)係指用嚟幫手整語言處理技術-例如自然語言處理-嘅資源。某隻語言嘅資源,通常係一啲將隻語言寫低嘅文本,呢啲文本要配合口語,例如用粵語白話文寫成嘅文本可以用嚟做粵語嘅語言資源,但係中文書面語喺文法同用詞上基於官話,唔可以攞嚟做粵語嘅資源。語言資源可以嚟自語料庫、維基百科同社交媒體等嘅地方。

語言資源對於教人工智能處理語言嚟講係不可或缺嘅。噉係因為教電腦處理一隻語言,通常都係要畀電腦讀取一大堆用嗰隻語言寫出嚟嘅文本。例如要整 ChatGPT,設計者就用咗閒閒哋幾億字咁多嘅英文文本。除此之外,語言資源亦可以攞嚟做語言學研究嘅材料。
資源有咩用
内文:自然語言處理
語言資源對於自然語言處理[e 1]-即係教人工智能處理自然語言嘅技術-嚟講係好重要嘅。噉係因為喺廿一世紀初,要教 AI 處理一隻語言,梗要畀部電腦讀取大量由嗰隻語言寫出嚟嘅字句。
NLP 入門例子:N-gram
舉個簡單嘅例子說明,N-gram 算係比較簡單嘅 NLP 技術,但已經可以用嚟教電腦分辨某段文本係咩語言(語言辨認)[2]。N-gram 建基於一個簡單嘅事實:語言同文字本質上就係一串串符號。想像而家有一串 100 隻字符咁長嘅符號-
LLLRLRRRLL...
,3-gram 嘅演算法會睇每串連續三個符號係咩樣,再用前兩個符號估計下一個符號最有可能會係乜嘢樣;例如想像家陣手上有串噉嘅粵語字[3][4]:
我鍾意寫粵語維基,可以為粵語提供多啲語言資源。
假想而家淨係齋睇呢段字:如果打前兩個字符係
鍾意
,跟住嗰個符號係寫
嘅機率係 100% -喺串字入面,鍾意
出現咗一次咁多,而喺嗰次當中串嘢跟住嘅字符係寫
;所以上面段嘢嘅 3-gram 當中,「鍾意後面掕寫」嘅機率係 100%。實際應用上嘅 n-gram 會用大量語言資源嚟做類似噉嘅估計,計出某種書寫語言啲字符以至詞語之間嘅統計關係。數學化啲講,n-gram 模型定義上係用[5]
嘅數值嚟預測 ,從而計出
淨係靠住 n-gram 已經可以做到一啲比較基本嘅 NLP 工作。
好似 n-gram 呢啲噉嘅技術,必定需要有一大批語言資源:是但搵隻語言,要教電腦學識隻語言嘅 n-gram 就有必要搵一大拃用嗰隻語言嘅口語寫成嘅文本。呢啲噉嘅文本,可以源自語料庫、維基百科同埋社交媒體等嘅來源。
Remove ads
低資源語言
内文:語言威望同雙層語言 § 東亞情況
有啲語言係所謂嘅低資源語言[e 2]。定義上,如果話某隻語言係低資源語言,意思即係話隻語言嘅資源唔夠用,尤其係缺乏人手整理好-精確啲講即係用標記語言標籤好-嘅語言資源。例如廿一世紀初嘅粵語就被指係低資源語言[6]。
粵語之所以會低資源,一個主因係佢有雙層語言[e 3]嘅現象:雙層語言簡單講,係指某個語言群體入邊存有兩隻語言,其中一隻畀人覺得係「高檔啲、可以攞嚟寫嘢」而另一隻畀人覺得係「低級啲、唔啱攞嚟寫嘢,或者淨係可以攞嚟寫粗口同鹹濕笑話」-喺廿一世紀初嘅粵港澳,以粵語做母語嘅人好多都慣咗寫嘢嗰陣要用建基於官話嘅中文書面語,唔肯寫粵語白話文,或者想寫粵語白話文都唔覺意夾雜咗中文書面語先有嘅用法[7]。而如果攞住用中文書面語寫嘅文本,當正佢係粵語語言資源嚟訓練 AI 學粵語,就會出好似以下噉「唔鹹唔淡」嘅 output [8]:
Output 有一日,一只雞跟一隻兔兩兄弟把車開去朋友屋企。突然間車就壞咗。 純中文書面語 有一天,一只雞跟一只兔兩兄弟把車開去朋友家。突然間車就壞了。 純粵語白話文 有一日,一隻雞同一隻兔兩兄弟揸車去朋友屋企。突然間架車就壞咗。
除此之外,一隻語言「地位低」亦會引致第啲問題,例如係錯別字、俗字同異體字呀噉:地位低嘅語言有一種特徵,就係往往缺乏標準化;有唔少語言都經過咗標準化嘅過程,會有政府提供資源制定同教授「標準讀音」同「標準寫法」,但係包括粵語在內嘅好多語言都缺少咗呢樣嘢;噉就會引致一類問題,就係啲使用者對於「呢隻呢隻口語會講嘅詞,要點樣寫呢?」呢條問題冇共識,例如响廿一世紀初嘅粵語書寫當中,啲有陣時會畀人寫做 d 噉,又有好多口語詞係啲人識講唔識寫嘅,好似係
用呢隻語言寫出嚟嘅文字多「唔標準嘅寫法」,就容易擾亂 NLP 演算法,又係會搞到電腦嘗試畀 output 嗰陣出埋晒啲「唔鹹唔淡」嘅詞句。
因為呢啲噉嘅問題,低資源語言就難以搵到文字材料用嚟教 AI 寫。例如截至 2023 年尾,Google 翻譯支援中文書面語(官話)、日本話同印地話等嘅主流大語言,但係依然仲未支援粵語。要去到2024年先有粵語版。
Remove ads
睇埋
Info:語言資源要多樣化
原則上最理想嘅情況係,隻語言有多種唔同來源嘅資源可以用。舉例說明,淨係靠維基百科會有問題,噉係因為啲人用口語講日常生活嘢同埋用口語講知識性質嘅嘢嗰時,啲用字都可能會唔同;粵維嘅文可以有以下呢啲用法,因為呢啲用法有粵語特色得嚟又合乎百科嘅客觀原則:
用法 例句 呢句例句會喺邊度見到? 啱啱好 「地球嘅溫度啱啱好,能夠容納生命。」 講生命或者地球等課題嘅文 成日 「蜜蜂成日都會用佢哋嘅針攻擊敵人。」 講蜜蜂或者昆蟲等課題嘅文 XX 吓 「白雪公主行行吓,見到小矮人間屋。」 講白雪公主以至其他童話故事嘅文 諗頭 「科幻作品好多時都會講到當代科學上嘅重要諗頭。」 講科幻相關課題嘅文 硬淨 「鋼非常硬淨,一般認為用鋼起建築物係好穩陣嘅。」 講建築相關課題嘅文 但無論邊隻語言嘅維基都好,百科式嘅文係要客觀嘅,唔可以表達作者嘅主觀情感,所以例如「呢個科學發現令我哋覺得好驚嘆」噉嘅句子,一般都係唔可以接受嘅。粵維會缺少呢啲噉嘅句子。不過要全面噉理解一隻語言-無論係粵語、官話定英文都好,都需要睇勻晒日常生活對話、知識性質對話、以及表達主觀情感嘅句子... 等嘅唔同材料先至得。因此,要搜集粵語嘅語言資源,亦需要有粵維以外嘅第啲來源。
註解
參考
文章
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads