朴素贝叶斯分类器
分类算法 / 维基百科,自由的 encyclopedia
朴素贝叶斯分类器(英语:Naive Bayes classifier,台湾称为单纯贝氏分类器),在机器学习中是一系列以假设特征之间强(朴素)独立下运用贝叶斯定理为基础的简单概率分类器(英语:probabilistic classifier)。
单纯贝氏自1950年代已广泛研究,在1960年代初就以另外一个名称引入到文本信息检索界中,[1]:488 并仍然是文本分类的一种热门(基准)方法,文本分类是以词频为特征判断文件所属类别或其他(如垃圾邮件、合法性、体育或政治等等)的问题。通过适当的预处理,它可以与这个领域更先进的方法(包括支持向量机)相竞争。[2] 它在自动医疗诊断中也有应用。[3]
单纯贝氏分类器是高度可扩展的,因此需要数量与学习问题中的变量(特征/预测器)成线性关系的参数。最大似然训练可以通过评估一个封闭形式的表达式来完成,[1]:718 只需花费线性时间,而不需要其他很多类型的分类器所使用的费时的迭代逼近。
在统计学和计算机科学文献中,单纯贝氏模型有各种名称,包括简单贝叶斯和独立贝叶斯。[4] 所有这些名称都参考了贝叶斯定理在该分类器的决策规则中的使用,但单纯贝氏不(一定)用到贝叶斯方法;[4] 《Russell和Norvig(英语:Artificial Intelligence: A Modern Approach)》提到“‘单纯贝氏’有时被称为贝叶斯分类器,这个马虎的使用促使真正的贝叶斯论者称之为傻瓜贝叶斯模型。”[1]:482