單純貝氏分類器
分类算法 / 維基百科,自由的 encyclopedia
單純貝氏分類器(英語:Naive Bayes classifier,中國大陸稱為樸素貝葉斯分類器),在機器學習中是一系列以假設特徵之間強(樸素)獨立下運用貝氏定理為基礎的簡單機率分類器(英語:probabilistic classifier)。
單純貝氏自1950年代已廣泛研究,在1960年代初就以另外一個名稱引入到文字資訊檢索界中,[1]:488 並仍然是文字分類的一種熱門(基準)方法,文字分類是以詞頻為特徵判斷檔案所屬類別或其他(如垃圾郵件、合法性、體育或政治等等)的問題。通過適當的預處理,它可以與這個領域更先進的方法(包括支持向量機)相競爭。[2] 它在自動醫療診斷中也有應用。[3]
單純貝氏分類器是高度可延伸的,因此需要數量與學習問題中的變數(特徵/預測器)成線性關係的參數。最大概似訓練可以通過評估一個封閉形式的表達式來完成,[1]:718 只需花費線性時間,而不需要其他很多類型的分類器所使用的費時的迭代逼近。
在統計學和電腦科學文獻中,單純貝氏模型有各種名稱,包括簡單貝氏和獨立貝氏。[4] 所有這些名稱都參考了貝氏定理在該分類器的決策規則中的使用,但單純貝氏不(一定)用到貝氏方法;[4] 《Russell和Norvig(英語:Artificial Intelligence: A Modern Approach)》提到「『單純貝氏』有時被稱為貝氏分類器,這個馬虎的使用促使真正的貝氏論者稱之為傻瓜貝氏模型。」[1]:482