统计机器翻译
維基百科,自由的 encyclopedia
统计机器翻译(英語:Statistical Machine Translation,简写为SMT)是机器翻译的一种,也是目前非限定领域机器翻译中性能较佳的一种方法。统计机器翻译的基本思想是通过对大量的平行语料进行统计分析,构建统计翻译模型,进而使用此模型进行翻译。从早期基于词的机器翻译已经过渡到基于短语的翻译,并正在融合句法信息,以进一步提高翻译的精确性。
2016年前Google翻译的大部分语言对采用的都是统计机器翻译的方法[1]。而Google亦在此本领域保持领先地位,在美国国家标准局组织的机器翻译评测中遥遥领先。[2]但Google翻译在2016年11月开始使用神經機器翻譯作为主要翻译系统,并开发了Google神經機器翻譯系統。此外,常用的基于统计法机器翻译的系统还包括Bing翻译[3]和百度翻译等。
统计机器翻译的首要任务是为语言的产生构造某种合理的统计模型,并在此统计模型基础上,定义要估计的模型参数,并设计参数估计算法。早期的基于词的统计机器翻译采用的是噪声信道模型,采用最大似然准则进行无监督训练,而近年来常用的基于短语的统计机器翻译则采用区分性训练方法,一般来说需要参考语料进行有监督训练。