統計機器翻譯
維基百科,自由的 encyclopedia
統計機器翻譯(英語:Statistical Machine Translation,簡寫為SMT)是機器翻譯的一種,也是目前非限定領域機器翻譯中效能較佳的一種方法。統計機器翻譯的基本思想是通過對大量的平行語料進行統計分析,構建統計翻譯模型,進而使用此模型進行翻譯。從早期基於詞的機器翻譯已經過渡到基於短語的翻譯,並正在融合句法資訊,以進一步提高翻譯的精確性。
2016年前Google翻譯的大部分語言對採用的都是統計機器翻譯的方法[1]。而Google亦在此本領域保持領先地位,在美國國家標準局組織的機器翻譯評測中遙遙領先。[2]但Google翻譯在2016年11月開始使用神經機器翻譯作為主要翻譯系統,並開發了Google神經機器翻譯系統。此外,常用的基於統計法機器翻譯的系統還包括Bing翻譯[3]和百度翻譯等。
統計機器翻譯的首要任務是為語言的產生構造某種合理的統計模型,並在此統計模型基礎上,定義要估計的模型參數,並設計參數估計演算法。早期的基於詞的統計機器翻譯採用的是噪聲信道模型,採用最大似然準則進行無監督訓練,而近年來常用的基於短語的統計機器翻譯則採用區分性訓練方法,一般來說需要參考語料進行有監督訓練。