トップQs
タイムライン
チャット
視点

部分的最小二乗回帰

ウィキペディアから

部分的最小二乗回帰
Remove ads

部分的最小二乗回帰(ぶぶんてきさいしょうじじょうかいき、: partial least squares regression、略称: PLS回帰)は、主成分回帰英語版といくらかの関係を持つ統計的手法の一つである。偏最小二乗回帰または部分最小二乗回帰とも呼ばれる。PLS回帰は、応答変数と説明変数との間の最大分散超平面を探す代わりに、予測変数観測可能な変数英語版を新たな空間に射影することによって線形回帰モデルを探る。XおよびYのデータが共に新たな空間に射影されるため、PLSに分類される手法群は双線形因子モデルとも呼ばれる。部分的最小二乗判別分析(PLS-DA)は、Yが分類である時の派生法である。

PLSは2つの行列XおよびY)間の基本的関係を探すために用いられる。すなわち、これら2つの空間における共分散構造をモデル化するための潜在変数アプローチである。PLSモデルはY空間における最大多次元分散方向を説明するX空間における多次元方向を探そうと試みる。PLS回帰は予測因子の行列が観測因子よりも変数の数が多い時、そしてXの値の間に多重共線性が存在する時に特に適している。対照的に、標準的な回帰手法はこれらの場合(正則化されていない限り英語版)失敗する。

部分的最小二乗法は、スウェーデンの統計学者ヘルマン・ウォルド英語版によって発表された。ウォルドはその後息子のスヴァンテ・ウォルドスウェーデン語版と共にこの手法を発展させた。PLSの(スヴァンテ・ウォルドによればより正確な[1])別称は、「projection to latent structures」(潜在構造への射影)であるが、多くの分野において「部分的最小二乗法」という用語が未だに優勢である。PLS回帰の最初の応用は社会科学分野でのものだったが、今日、PLS回帰は計量化学(ケモメトリクス)と関連領域において最も広く使われている。また、バイオインフォマティクス、感覚計量学、神経科学、人類学でも使われている。

Remove ads

基礎的モデル

要約
視点

多変量PLSの一般的基礎的モデルは以下の式で表わされる。

上式において、は予測変数のは応答変数の行列; ならびにはそれぞれの射影(Xスコアまたは成分または因子行列)ならびにの射影(Yスコア); ならびにはそれぞれならびに直交「負荷量(ローディング)」行列; 行列およびは誤差項であり、互いに独立で同一の分布に従う確率正規変数であると仮定される。およびの分解は、との間の共分散を最大化するように行われる。

Remove ads

アルゴリズム

要約
視点

因子ならびに負荷量行列であるならびにを推定するための多くのPLSの変法が存在する。それらの多くは、としてとの間の線形回帰の推定量を構築する。一部のPLSアルゴリズムは、が列ベクトルである場合に対してのみ適切であるが、その他は行列の一般的な場合を扱う。アルゴリズムはまた、因子行列直交行列もしくは正規直交行列として推定するか、あるいは条件を付けないかという点で異なる[2][3][4][5][6][7]。最終的な予測値はこれら全ての変法で同じであるが、成分が異なっている。

PLS1

PLS1は、Yがベクトルの場合について適切で広く用いられているアルゴリズムである。PLS1はTを正規直交行列として推定する。以下に疑似コードを示す(大文字は行列、小文字は上に添字がある場合ベクトル、下に添字がある場合スカラーである)。

  1. function PLS1()
  2. , wの初期推定
  3. for to l
  4. (これはスカラー)
  5. (これはスカラー)
  6. if
  7. , ループから脱出
  8. if
  9. end for
  10. define W to be the matrix with columns .
    • Do the same to form the P matrix and q vector.
  11. return

このアルゴリズム形式は、入力する XおよびYのセンタリングを必要としない。これはセンタリングがアルゴリズムによって暗黙的に実行されるためである。このアルゴリズムは行列Xの減次(の減算)を行うが、ベクトルyの減次は必要でないため行われない。ユーザ指定の変数lは回帰における潜在因子の数の上限である。この数が行列Xの階数に等しければ、アルゴリズムはBおよびに対する最小二乗回帰推定法に等しい。

Remove ads

拡張

2002年、潜在構造に対する直交射影(orthogonal projections to latent structures、OPLS)と呼ばれる新手法が発表された。OPLSでは、連続的変数データが予測情報と無相関の情報に分離される。これによって診断が改善され、解釈のための視覚化がより容易となる。しかしながら、これらの変更はPLSモデルの解釈可能性を改善するだけであり、予測性は改善しない[8]。L-PLS法は、PLS回帰を3つの連結したデータブロックに拡張する[9] 。同様に、OPLS-DA(Discriminant Analysis; 判別分析)法は、分類やバイオマーカーの研究のように離散変数を扱う時に適用できる。

2015年、部分的最小二乗法はthree-pass regression filter (3PRF) と呼ばれる手順と関連付けられた[10]。もし観察と変数の数が大きいならば、3PRF(とゆえにPLS)は線形潜在因子モデルによって暗示される「最良の」予測について漸近的に正規である。株式市場モデルでは、PLSは運用益とキャッシュフローの成長の正確なサンプル外予測を与えることが示されている[11]

ソフトウェア実装

ほとんどの主要な統計ソフトウェアパッケージがPLS回帰を用意している[要出典]

脚注

推薦文献

関連項目

外部リンク

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads