语言模型

语言模型是一个自然语言中的词语几率分布模型^[1]^[2]，例如提供一个长度为 $m$ 的字词序列 $w_{1},w_{2},...,w_{m}$ ，计算这些字词的概率： $P(w_{1},\ldots ,w_{m})$ 。通过语言模型，可以确定哪个词语出现的可能性更大，或者通过若干上文语境词来预测下一个最可能出现的词语。^[3]

语言模型经常使用在许多自然语言处理方面的应用，如语音识别^[4]，机器翻译^[5]，词性标注，句法分析^[6]，手写体识别^[7]和资讯检索。由于字词与句子都是任意组合的长度，因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题)，也使得在语料库中估算字串的几率变得很困难，这也是要使用近似的平滑n-元语法(N-gram)模型之原因。

在语音辨识和在资料压缩的领域中，这种模式试图捕捉语言的特性，并预测在语音串列中的下一个字。

在语音识别中，声音与单词序列相匹配。当来自语言模型的证据与发音模型和声学模型相结合时，歧义更容易解决。

当用于资讯检索，语言模型是与文件有关的集合。以查询字“Q”作为输入，依据几率将文件作排序，而该几率 $P(Q|M_{d})$ 代表该文件的语言模型所产生的语句之几率。

[1]

[2]

[3]

[4]

[5]

[6]

[7]