主題模型

主題模型（Topic Model）在機器學習和自然語言處理等領域是用來在一系列文檔中發現抽象主題的一種統計模型。直觀來講，如果一篇文章有一個中心思想，那麼一些特定詞語會更頻繁的出現。比方說，如果一篇文章是在講狗的，那「狗」和「骨頭」等詞出現的頻率會高些。如果一篇文章是在講貓的，那「貓」和「魚」等詞出現的頻率會高些。而有些詞例如「這個」、「和」大概在兩篇文章中出現的頻率會大致相等。但真實的情況是，一篇文章通常包含多種主題，而且每個主題所占比例各不相同。因此，如果一篇文章10%和貓有關，90%和狗有關，那麼和狗相關的關鍵字出現的次數大概會是和貓相關的關鍵字出現次數的9倍。一個主題模型試圖用數學框架來體現文檔的這種特點。主題模型自動分析每個文檔，統計文檔內的詞語，根據統計的信息來斷定當前文檔含有哪些主題，以及每個主題所占的比例各為多少。

主題模型最初是運用於自然語言處理相關方向，但目前以及延伸至例如生物信息學的其它領域。