詞庫

From Wikipedia, the free encyclopedia

詞庫
Remove ads

詞庫粵音:ci4 fu3;參見英文lexicon),係指某隻語言或者某套知識裏面嘅詞彙嘅總和。例如粵語嘅詞庫包晒所有粵語口語會用嘅詞彙——語言jyu5 jin4)呢隻詞粵語口語會用,算係粵語詞庫嘅一部份[1][2];除此之外,一門知識都可以有佢哋嘅詞庫,例如係 AI 噉,做 AI 相關嘅工作會用到好多概念同埋行話,呢啲嘢入面包含嘅詞彙,可以算係 AI 呢個領域嘅詞庫,形成所謂嘅 AI 詞彙

Thumb
2005 年一本拉丁文詞典;詞典想做嘅,就係要列出晒隻語言嘅 lexicon 入面嘅詞語
  提示:呢篇文講嘅唔係詞彙

語言學上,詞庫係一個重要嘅概念:一隻語言可以大致睇做詞庫同文法結合埋一齊而成嘅總體[3] ——詞庫包括咗大拃嗰隻語言裏面嘅詞彙,用語言嘅人要攞住啲詞彙,跟文法將啲詞彙砌埋做句子,達致表達佢哋想表達嘅意思;例如攞住粵語嘅詞彙[4]

bei2動詞)、bun2量詞)、syu1名詞)、ngo5代名詞

再跟粵語嘅文法規則砌成「畀本書我。」噉嘅句子[註 1]。因為詞庫咁基本,對佢哋嘅研究喺語言學同自然語言處理等語言相關嘅工作上相當受到重視。

詞彙學就係語言學嘅子領域,顧名思義專研究詞庫。

Remove ads

概念基礎

More information 粵語詞庫其中一個 item, 貓嘅圖例 ...
内文:詞語語言詞彙lexeme
睇埋:構詞學

對於詞庫嘅具體定義,學界有幾套唔同嘅睇法[5]:2.6。根據某啲觀點,詞庫嘅最基本組成部份係詞語,而某啲觀點就認為詞庫嘅基本組成部份係形態素至啱。首先,而家淨係考慮口語,唔諗文字點寫住,詞由音素同埋形態素組成,當中

  • 音素:指令用隻語言嘅人能夠分辨兩隻詞嘅最細嘅單位;攞粵語做例子,粵語有元音輔音,噉想像以下嘅音[註 2]
    bou1(可以對應嘅漢字:煲)、dou1(可以對應嘅漢字:都、刀)——聽嘅人正路聽得出兩個聲唔同;
    bou1(可以對應嘅漢字:煲)、bo1(可以對應嘅漢字:波、玻)——聽嘅人都係會聽得出兩個聲唔同;
    ——「改變個元音或者輔音」呢吓舉動,能夠令吓聲唔同咗,而且仲係能夠做到「令吓聲唔同咗」嘅最細可能改動,所以呢啲元音同輔音就係粵語嘅音素[6]
  • 形態素:指可以有意思嘅最細可能單位,唔一定能夠自成一隻字詞;攞英文做例子,想像以下呢啲詞[7]:"Prefix"
    Redo動詞再做過噉解)
    Reappear(動詞再出現噉解)
    ——當中嘅 re- 本身唔能夠自成一隻詞,但帶有再... 噉嘅意思,同時 re- 再斬細件啲就唔會再有咩意思可言。所以 re- 係英文入面嘅一嚿形態素[8]

一隻詞會由若干嚿音素同若干嚿形態素組成。是但搵一個會用語言嘅群體,佢哋用嘅語言裏面有嘅詞擺埋晒一齊嘅整體,就係嗰個群體嘅詞庫,當中「群體」可以係[9]:講同一隻話嘅人,例:粵語嘅詞庫、閩南話嘅詞庫、英文嘅詞庫... 呀噉;做同一行嘅人——是但搵一門工作,嗰門工作都會有外人(講同一隻語言但唔係做嗰範嘅人)聽唔明嘅行話,所以一個行業可以有佢哋嘅詞庫,例:電腦科學嘅詞庫、工程學嘅詞庫、芭蕾舞嘅詞庫... 呀噉;用同一隻語言而且年齡差唔多嘅人——年齡唔同嘅人講嘢方式可以幾唔同,有陣時可能齋係聽一個人講嘢啲用詞就可以知佢年齡,例:粵語老人家嘅詞庫、粵語後生仔女嘅詞庫... 呀噉。

Remove ads

詞庫化

内文:詞庫化

詞庫化語言演變嘅重要一環,指「將新嘅詞(或者慣用語等使用詞嘅方法)加入去一隻語言嘅詞庫度」噉嘅過程[10]。詞庫化嘅過程可以係透過好多唔同嘅機制嚟做:

  • 合成詞(compound):技術化噉講,合成詞係指一個 lexeme 可能由多個詞幹組成,簡化講即係兩隻各有意思嘅詞砌埋一齊做一隻自成個新意思嘅詞;例如粵人史上第一次見到雪糕嗰陣,就攞住呢兩隻本身喺粵文入面可以獨自存在嘅形態素,砌埋一齊變成雪糕呢隻新詞,隻詞嗰兩橛對隻詞整體嘅意思嚟講都係必要嘅[11][12]
    • 粵語同普通話等嘅漢語出晒名多合成詞,例子有粵語入面嘅[13]
      hoi1 sam1(漢字:開心V-N
      ceot1 maau1(漢字:出貓;V-N)
      faa1 jyun2*4(漢字:花園;N-N)... 等等。
  • 減筆(abbrv.):將啲現有嘅詞縮短,通常係由原先隻詞或者句嘢度攞最重要嗰啲部份出嚟,最後形成隻新詞或者句新句子,例如粵語個英文名—— Cantonese ——以英文嚟講係一隻幾長嘅詞,成日畀人減筆做 Canto,形成 Canto-pop(指粵語流行曲)等嘅詞[14]。睇埋揳夫簡潔定律
  • 頭字語:淨係適用於寫起上嚟會攞字母寫嘅語言,指將隻詞用字母寫低,再攞隻詞每個詞開頭嗰個字母,砌做一隻新詞,例如北大西洋公約組織個名噉,北大西洋公約組織嘅英文名叫
    North Atlantic Treaty Organization
    • 個全名咁長,啲人覺得吓吓都要講或者寫晒佢好煩(睇埋揳夫簡潔定律),所以就攞住嗰 4 隻詞開頭嘅字母—— N、A、T 同 O ——做隻新詞 NATO,用呢隻詞指北大西洋公約組織[15]
  • 借詞:指由第啲語言度借詞語嚟用[註 3][16]

... 等等。

Remove ads

語料分析

從事語言相關工作嘅人,成日都會靠住分析語料嚟研究一隻語言嘅詞庫。例如協氏定律就好出名:協氏定律係語言學上一條靠實證[註 4]得出嘅定律;根據協氏定律,以下呢條式實會成立[17]

,當中

指一份 隻詞咁長嘅文件入面有幾多隻唔同款嘅詞——我我係兩隻同款嘅詞,我係係兩隻唔同款嘅詞, 係某啲參數,數值視乎語言而定。喺英文入面, 數值通常會係 10 至 100,而 數值係 0.4 至 0.6(睇附圖)。用日常用語講嘅話,協氏定律講嘅嘢即係「一份文件嘅長度愈長,愈難搵到新鮮嘅詞」。協氏定律講嘅嘢畫做圖嘅樣如下,當中打戙軸打橫軸

Thumb

睇埋

註釋

  1. 而「給本書我」噉嘅句子喺中文書面語(原則上文法要跟普通話)入面文法會唔啱。
  2. 如果唔識睇呢度啲拼音,可以去參考吓粵拼
  3. 不過「借詞語碼轉換之間嗰條界線喺邊」係條大問題。
  4. 即係話語言學家都唔肯定點解會有噉嘅現象,但總之實際睇數據嗰陣就係睇到噉嘅規律。

引咗

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads