n元語法文本中连续出现的n个语词 / 維基百科,自由的 encyclopedia n元語法(英語:n-gram)指文本中連續出現的n個語詞。n元語法模型是基於(n-1)階馬爾可夫鏈的一種概率語言模型,通過n個語詞出現的概率來推斷語句的結構。[1][2]這一模型被廣泛應用於概率論、通信理論、計算語言學(如基於統計的自然語言處理)、計算生物學(如序列分析)、數據壓縮等領域。 當n分別為1、2、3時,又分別稱為一元語法(unigram)、二元語法(bigram)與三元語法(trigram)。[2]
n元語法(英語:n-gram)指文本中連續出現的n個語詞。n元語法模型是基於(n-1)階馬爾可夫鏈的一種概率語言模型,通過n個語詞出現的概率來推斷語句的結構。[1][2]這一模型被廣泛應用於概率論、通信理論、計算語言學(如基於統計的自然語言處理)、計算生物學(如序列分析)、數據壓縮等領域。 當n分別為1、2、3時,又分別稱為一元語法(unigram)、二元語法(bigram)與三元語法(trigram)。[2]