トップQs
タイムライン
チャット
視点
確率的潜在意味解析
ウィキペディアから
Remove ads
確率的潜在意味解析(かくりつてきせんざいいみかいせき、Probabilistic latent semantic analysis、PLSA、または情報検索の分野では 確率的潜在意味インデキシング(PLSI)とも)は、2モードデータや共起データの解析に用いられる統計的手法である。これは、潜在意味解析(LSA)と同様に、観測された変数の低次元表現を、いくつかの隠れた変数との関連性に基づいて得る方法である。
従来の潜在意味解析が線形代数に基づき、出現頻度表を特異値分解などによって次元削減するのに対し、確率的潜在意味解析は潜在クラスモデルに基づく混合分解を用いる。
モデル
要約
視点

語と文書の共起 を観測とすると、PLSAは各共起の確率を条件付き独立な多項分布の混合として次のようにモデル化する:
ここでは語の属する「トピック」を意味する。トピック数は事前に決定されるハイパーパラメータであり、データから推定されるものではない。
最初の式は「対称モデル」で、語と文書がともにトピックから生成される構造を示している。一方、二番目の式は「非対称モデル」で、文書に対してトピックがまず選ばれ、そこから語が生成される。
このモデルではパラメータの数は であり、文書数に比例して増加する。そのため、PLSAは訓練コーパス上の文書に対しては生成モデルだが、新しい文書の生成モデルとは言えない。
モデルパラメータはEMアルゴリズムによって学習される。
Remove ads
応用
PLSA はフィッシャーカーネルを用いて識別的な文書表現として使用されることもある[1]。
PLSA は、情報検索、情報フィルタリング、自然言語処理、機械学習、バイオインフォマティクス[2] など幅広い分野に応用されている。
拡張
- 階層モデルの拡張
- 生成モデルの拡張:
- 潜在的ディリクレ配分法(LDA) - 文書ごとのトピック分布にディリクレ分布を導入し、PLSAの欠点(新文書を生成できない)を克服する。
- 高次元データへの拡張:PLSAは3変数以上の共起にも拡張可能であり、追加の条件付き分布を導入することで、非負値テンソル因子分解に対応する確率モデルとして利用できる。
歴史
PLSAは潜在クラスモデルの一例であり、非負値行列因子分解との理論的関連性も報告されている[6][7]。この用語「PLSA」は1999年にトーマス・ホフマンによって導入された[8]。
関連項目
脚注
外部リンク
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads