広く使える情報量規準

記法

要約

視点

以下では、 $q(x)$ を観測データが従う真の確率分布、観測データ（確率変数）を $X={X i}$ 、確率モデルのパラメータを $w$ 、確率モデルを $p(x|w)$ 、事前分布を $φ(w)$ とする。

また、事後分布による平均を $𝔼 w [・]$ 、真のデータ分布による平均を $𝔼 x [・]$ とする。すなわち、任意の関数 $f(w)$ 、 $g(x)$ に対し：

\mathbb {E} _{w}\left[f(w)\right]={\frac {\int f(w)\prod _{i=1}^{n}p(X_{i}|w)\varphi (w)\mathrm {d} w}{\int \prod _{i=1}^{n}p(X_{i}|w)\varphi (w)\mathrm {d} w}}

\mathbb {E} _{x}\left[g(x)\right]=\int g(x)q(x)\mathrm {d} x

とする。また、特にパラメータ $β$ で一般化された事後分布平均を

\mathbb {E} _{w}^{\beta }\left[f(w)\right]={\frac {\int f(w)\prod _{i=1}^{n}p(X_{i}|w)^{\beta }\varphi (w)\mathrm {d} w}{\int \prod _{i=1}^{n}p(X_{i}|w)^{\beta }\varphi (w)\mathrm {d} w}}

と書く。ここで導入されたパラメータ $β$ は統計力学とのアナロジーで逆温度と呼ばれる。

またベイズ推定の文脈で、パラメータ $w$ の事後分布を用いて期待値をとったモデル分布（事後予測分布）を

p^{\ast }(x)=\mathbb {E} _{w}\left[p(x|w)\right]

と書く。

Remove ads

WAIC

要約

視点

\mathrm {WAIC} ={\frac {1}{n}}\sum _{i}(-\log {p^{\ast }(X_{i})})+{\frac {1}{n}}\sum _{i=1}^{n}\left[\mathbb {E} _{w}\left[\log {p(X_{i}|w)^{2}}\right]-\mathbb {E} _{w}\left[\log {p(X_{i}|w)}\right]^{2}\right]

ただし、文献により定義が定数倍違う場合があることに注意。

考えている確率モデルの性能を評価するため、観測データから得られた事後予測分布 $p * (x)$ が実際のデータ分布 $q(x)$ にどのくらい近いかを考えたい。そこで、以下で定義される量（汎化誤差）を考える:

G_{n}=\mathbb {E} _{x}\left[-\log p^{\ast }(x)\right]=\int q(x)\left(-\log {p^{\ast }(x)}\right)dx

これは真の分布 $q(x)$ と予測分布 $p * (x)$ との交差エントロピー $H(q||p *)$ である。これは $q(x)$ が $p * (x)$ と等しい時最小値 $H(q)$ をとる（ $H(q)$ は $q(x)$ のエントロピー）。

しかし実際には無限に観測データを手に入れられるわけではないので、真の分布 $q(x)$ の形状を知らない場合には上の積分は評価できない。そこで、真のデータ分布での平均値を求める代わりに、有限の観測データによるサンプル平均を使った経験誤差を考える：

T_{n}={\frac {1}{n}}\sum _{i}(-\log {p^{\ast }(X_{i})})

これは汎化誤差の近似を与える（サンプルサイズが非常に大きい極限で汎化誤差に漸近する）が、有限のサンプルを用いて計算しているため真の汎化誤差の値から系統的に少しずれてしまう。WAICはこの経験誤差と汎化誤差とのズレを汎関数分散

V_{n}=\sum _{i=1}^{n}\left[\mathbb {E} _{w}\left[\log {p(X_{i}|w)^{2}}\right]-\mathbb {E} _{w}\left[\log {p(X_{i}|w)}\right]^{2}\right]

で補正し、有限の観測データしかない場合でも汎化誤差の良い近似値を計算できるようにしたものである。

Remove ads

WBIC

要約

視点

広く使えるベイズ情報量規準 (WBIC) は、逆温度パラメータを $β * = 1 / log n$ とおいたときの一般化事後分布に対する対数尤度の期待値

\mathrm {WBIC} =\mathbb {E} _{w}^{\beta ^{\ast }}\!{\bigl [}-\sum _{i=1}^{n}\log p(X_{i}\mid w){\bigr ]}

として定義される。すなわち「逆温度 $β * = 1 / log n$ でMCMC チェーンを回し、そのチェーン上の対数尤度を平均した量」が WBIC である。

ベイズ統計の文脈でモデル同士を比較するのに使われるのがベイズファクターである。ベイズファクターはモデル同士のエビデンス

{\mathcal {E}}=\int \prod _{i=1}^{n}p(X_{i}|w)\varphi (w)dw

の比で与えられる。実用上はこれの対数値を使うのが便利なので、これの負の対数値

{\mathcal {F}}=-\log {\mathcal {E}}

（統計力学とのアナロジーでベイズ自由エネルギーと呼ぶ）を考える。BICは正則モデル（事後分布が正規分布でよく近似できる）についてこれの良い近似（定義によってはその定数倍）を与えるが、WBICは非正則（特異的）なモデルに対しても自由エネルギーの良い近似値を与える。

記法