トップQs
タイムライン
チャット
視点

確率的潜在意味解析

ウィキペディアから

Remove ads

確率的潜在意味解析(かくりつてきせんざいいみかいせき、Probabilistic latent semantic analysis、PLSA、または情報検索の分野では 確率的潜在意味インデキシングPLSI)とも)は、2モードデータや共起データの解析に用いられる統計的手法である。これは、潜在意味解析(LSA)と同様に、観測された変数の低次元表現を、いくつかの隠れた変数との関連性に基づいて得る方法である。

従来の潜在意味解析線形代数に基づき、出現頻度表を特異値分解などによって次元削減するのに対し、確率的潜在意味解析は潜在クラスモデルに基づく混合分解を用いる。

モデル

要約
視点
Thumb
PLSAモデルのプレート記法(非対称表現)。は文書のインデックス変数、はトピック、は語。は観測変数で、潜在変数である。

語と文書の共起 を観測とすると、PLSAは各共起の確率を条件付き独立な多項分布の混合として次のようにモデル化する:

ここでは語の属する「トピック」を意味する。トピック数は事前に決定されるハイパーパラメータであり、データから推定されるものではない。

最初の式は「対称モデル」で、語と文書がともにトピックから生成される構造を示している。一方、二番目の式は「非対称モデル」で、文書に対してトピックがまず選ばれ、そこから語が生成される。

このモデルではパラメータの数は であり、文書数に比例して増加する。そのため、PLSAは訓練コーパス上の文書に対しては生成モデルだが、新しい文書の生成モデルとは言えない。

モデルパラメータはEMアルゴリズムによって学習される。

Remove ads

応用

PLSA はフィッシャーカーネルを用いて識別的な文書表現として使用されることもある[1]

PLSA は、情報検索、情報フィルタリング、自然言語処理機械学習バイオインフォマティクス[2] など幅広い分野に応用されている。

ただし、PLSA で使用されるアスペクトモデルには過学習の問題があることが指摘されている[3]

拡張

  • 階層モデルの拡張
    • 非対称型:MASHA(Multinomial ASymmetric Hierarchical Analysis)[4]
    • 対称型:HPLSA(Hierarchical Probabilistic Latent Semantic Analysis)[5]
  • 生成モデルの拡張:
  • 高次元データへの拡張:PLSAは3変数以上の共起にも拡張可能であり、追加の条件付き分布を導入することで、非負値テンソル因子分解に対応する確率モデルとして利用できる。

歴史

PLSAは潜在クラスモデルの一例であり、非負値行列因子分解との理論的関連性も報告されている[6][7]。この用語「PLSA」は1999年にトーマス・ホフマンによって導入された[8]

関連項目

脚注

外部リンク

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads