統計機器翻譯

統計機器翻譯（英語：Statistical Machine Translation，簡寫為SMT）是機器翻譯的一種，也是目前非限定領域機器翻譯中效能較佳的一種方法。統計機器翻譯的基本思想是通過對大量的平行語料進行統計分析，構建統計翻譯模型，進而使用此模型進行翻譯。從早期基於詞的機器翻譯已經過渡到基於短語的翻譯，並正在融合句法資訊，以進一步提高翻譯的精確性。

2016年前Google翻譯的大部分語言對採用的都是統計機器翻譯的方法^[1]。而Google亦在此本領域保持領先地位，在美國國家標準局組織的機器翻譯評測中遙遙領先。^[2]但Google翻譯在2016年11月開始使用神經機器翻譯作為主要翻譯系統，並開發了Google神經機器翻譯系統。此外，常用的基於統計法機器翻譯的系統還包括Bing翻譯^[3]和百度翻譯等。

統計機器翻譯的首要任務是為語言的產生構造某種合理的統計模型，並在此統計模型基礎上，定義要估計的模型參數，並設計參數估計演算法。早期的基於詞的統計機器翻譯採用的是噪聲信道模型，採用最大似然準則進行無監督訓練，而近年來常用的基於短語的統計機器翻譯則採用區分性訓練方法，一般來說需要參考語料進行有監督訓練。

[1]

[2]

[3]