统计机器翻译

统计机器翻译（英語：Statistical Machine Translation，简写为SMT）是机器翻译的一种，也是目前非限定领域机器翻译中性能较佳的一种方法。统计机器翻译的基本思想是通过对大量的平行语料进行统计分析，构建统计翻译模型，进而使用此模型进行翻译。从早期基于词的机器翻译已经过渡到基于短语的翻译，并正在融合句法信息，以进一步提高翻译的精确性。

2016年前Google翻译的大部分语言对采用的都是统计机器翻译的方法^[1]。而Google亦在此本领域保持领先地位，在美国国家标准局组织的机器翻译评测中遥遥领先。^[2]但Google翻译在2016年11月开始使用神經機器翻譯作为主要翻译系统，并开发了Google神經機器翻譯系統。此外，常用的基于统计法机器翻译的系统还包括Bing翻译^[3]和百度翻译等。

统计机器翻译的首要任务是为语言的产生构造某种合理的统计模型，并在此统计模型基础上，定义要估计的模型参数，并设计参数估计算法。早期的基于词的统计机器翻译采用的是噪声信道模型，采用最大似然准则进行无监督训练，而近年来常用的基于短语的统计机器翻译则采用区分性训练方法，一般来说需要参考语料进行有监督训练。

[1]

[2]

[3]