詞庫
From Wikipedia, the free encyclopedia
Remove ads
詞庫(粵音:ci4 fu3;參見英文:lexicon),係指某隻語言或者某套知識裏面嘅詞彙嘅總和。例如粵語嘅詞庫包晒所有粵語口語會用嘅詞彙——語言(jyu5 jin4)呢隻詞粵語口語會用,算係粵語詞庫嘅一部份[1][2];除此之外,一門知識都可以有佢哋嘅詞庫,例如係 AI 噉,做 AI 相關嘅工作會用到好多概念同埋行話,呢啲嘢入面包含嘅詞彙,可以算係 AI 呢個領域嘅詞庫,形成所謂嘅 AI 詞彙。

喺語言學上,詞庫係一個重要嘅概念:一隻語言可以大致睇做詞庫同文法結合埋一齊而成嘅總體[3] ——詞庫包括咗大拃嗰隻語言裏面嘅詞彙,用語言嘅人要攞住啲詞彙,跟文法將啲詞彙砌埋做句子,達致表達佢哋想表達嘅意思;例如攞住粵語嘅詞彙[4]
再跟粵語嘅文法規則砌成「畀本書我。」噉嘅句子[註 1]。因為詞庫咁基本,對佢哋嘅研究喺語言學同自然語言處理等語言相關嘅工作上相當受到重視。
詞彙學就係語言學嘅子領域,顧名思義專研究詞庫。
Remove ads
概念基礎
睇埋:構詞學
對於詞庫嘅具體定義,學界有幾套唔同嘅睇法[5]:2.6。根據某啲觀點,詞庫嘅最基本組成部份係詞語,而某啲觀點就認為詞庫嘅基本組成部份係形態素至啱。首先,而家淨係考慮口語,唔諗文字點寫住,詞由音素同埋形態素組成,當中
- 音素:指令用隻語言嘅人能夠分辨兩隻詞嘅最細嘅聲單位;攞粵語做例子,粵語有元音同輔音,噉想像以下嘅音[註 2]
- 形態素:指可以有意思嘅最細可能單位,唔一定能夠自成一隻字詞;攞英文做例子,想像以下呢啲詞[7]:"Prefix"
一隻詞會由若干嚿音素同若干嚿形態素組成。是但搵一個會用語言嘅群體,佢哋用嘅語言裏面有嘅詞擺埋晒一齊嘅整體,就係嗰個群體嘅詞庫,當中「群體」可以係[9]:講同一隻話嘅人,例:粵語嘅詞庫、閩南話嘅詞庫、英文嘅詞庫... 呀噉;做同一行嘅人——是但搵一門工作,嗰門工作都會有外人(講同一隻語言但唔係做嗰範嘅人)聽唔明嘅行話,所以一個行業可以有佢哋嘅詞庫,例:電腦科學嘅詞庫、工程學嘅詞庫、芭蕾舞嘅詞庫... 呀噉;用同一隻語言而且年齡差唔多嘅人——年齡唔同嘅人講嘢方式可以幾唔同,有陣時可能齋係聽一個人講嘢啲用詞就可以知佢年齡,例:粵語老人家嘅詞庫、粵語後生仔女嘅詞庫... 呀噉。
Remove ads
詞庫化
内文:詞庫化
詞庫化係語言演變嘅重要一環,指「將新嘅詞(或者慣用語等使用詞嘅方法)加入去一隻語言嘅詞庫度」噉嘅過程[10]。詞庫化嘅過程可以係透過好多唔同嘅機制嚟做:
- 合成詞(compound):技術化噉講,合成詞係指一個 lexeme 可能由多個詞幹組成,簡化講即係兩隻各有意思嘅詞砌埋一齊做一隻自成個新意思嘅詞;例如粵人史上第一次見到雪糕嗰陣,就攞住雪同糕呢兩隻本身喺粵文入面可以獨自存在嘅形態素,砌埋一齊變成雪糕呢隻新詞,隻詞嗰兩橛對隻詞整體嘅意思嚟講都係必要嘅[11][12]。
- 減筆(abbrv.):將啲現有嘅詞縮短,通常係由原先隻詞或者句嘢度攞最重要嗰啲部份出嚟,最後形成隻新詞或者句新句子,例如粵語個英文名—— Cantonese ——以英文嚟講係一隻幾長嘅詞,成日畀人減筆做 Canto,形成 Canto-pop(指粵語流行曲)等嘅詞[14]。睇埋揳夫簡潔定律。
- 頭字語:淨係適用於寫起上嚟會攞字母寫嘅語言,指將隻詞用字母寫低,再攞隻詞每個詞開頭嗰個字母,砌做一隻新詞,例如北大西洋公約組織個名噉,北大西洋公約組織嘅英文名叫
- North Atlantic Treaty Organization
- 借詞:指由第啲語言度借詞語嚟用[註 3][16]。
... 等等。
Remove ads
語料分析
從事語言相關工作嘅人,成日都會靠住分析語料嚟研究一隻語言嘅詞庫。例如協氏定律就好出名:協氏定律係語言學上一條靠實證[註 4]得出嘅定律;根據協氏定律,以下呢條式實會成立[17]:
- ,當中
指一份 隻詞咁長嘅文件入面有幾多隻唔同款嘅詞——我我係兩隻同款嘅詞,我係係兩隻唔同款嘅詞, 同 係某啲參數,數值視乎語言而定。喺英文入面, 數值通常會係 10 至 100,而 數值係 0.4 至 0.6(睇附圖)。用日常用語講嘅話,協氏定律講嘅嘢即係「一份文件嘅長度愈長,愈難搵到新鮮嘅詞」。協氏定律講嘅嘢畫做圖嘅樣如下,當中打戙軸做 ,打橫軸做 。

睇埋
註釋
引咗
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads