拡散モデル

数学的原理

要約

視点

画像生成

画像生成という問題を考える。 $x$ を画像とし、画像空間上の確率密度関数を $p(x)$ とおく。もし $p(x)$ 自体が与えられているならば、特定の画像が生成される確率を明確にすることができるが、一般には確率を知ることは難しい。

たいていの場合、特定の画像が生成される具体的な確率には興味がない。むしろ興味の対象は、その特定の画像が近傍の画像と比較してどの程度生成されやすいかである。例えば2本のひげが生えた猫の画像があるとき、その画像のわずかな変種（たとえば3本のひげが生えた猫の画像や、何らかのガウス雑音が加わった画像）と比較してどの程度生じやすいのか、が問題である。

したがって、興味の対象は $p(x)$ そのものではなく、むしろ $\nabla _{x}\ln p(x)$ である。これは2つの効果をもたらす。

第一に $p(x)$ を正規化する必要がなく、 ${\tilde {p}}(x)=Cp(x)$ を用いることができる。ここで $C=\int {\tilde {p}}(x)dx>0$ は任意の定数であり、具体的な値は計算に何の影響も与えない。
第二に、 $p(x)$ とその近傍画像の確率 $p(x+dx)$ を、 ${\frac {p(x)}{p(x+dx)}}=e^{-\langle \nabla _{x}\ln p,dx\rangle }$ によって比較できる。

スコア関数を $s(x):=\nabla _{x}\ln p(x)$ とおくと、 $s(x)$ は $p(x)$ から確率的勾配ランジュバン動力学（英語版）（SGLD）を用いた標本抽出を可能にする。これは本質的にマルコフ連鎖モンテカルロ法の無限小バージョンである^[2]。

スコア関数の学習

スコア関数はnoising-denoisingによって学習可能である^[1]。

Remove ads

主要な変種

要約

視点

分類器誘導

あらゆる画像群から標本抽出するのではなく、画像に関する記述によって条件付けされた範囲から抽出することを考える。一般的な画像群から取り出さず、例えば「赤い目の黒猫」といった記述に合致する画像から取り出すということである。一般に、これは $p(x|y)$ という分布上での標本抽出を意味する。ここで画像 $x$ は全ての画像の範囲から得られるのに対して、画像 $y$ の範囲はある画像のクラスに限定される（「赤い目の黒猫」はかなり詳細なクラスであり、それに対して「猫」はかなり漠然とした記述である）。

雑音のある通信路モデルの観点に立つことで、この過程を以下のように理解することができる。記述 $y$ が与えられた条件のもとで画像 $x$ を生成しようとするとき、画像を生成したい人は実のところ画像 $x$ を思い描いているのだが、その画像は雑音のある通信路を通ってきたために文字化けした結果、記述 $y$ として受信されている、と想像するのである。この場合、画像生成とは生成したい人が本来思い描いていた $x$ を推定する操作に他ならない。

言い換えると、条件付き画像生成は単に「文字で表現された言語を画像で表現された言語に翻訳する」ということである。そこで雑音のある通信路モデルと同様に、ベイズの定理から $p(x|y)\propto p(y|x)p(x)$ を得る。すなわち、もしも全画像空間に関する良質なモデル（ $p(x)$ ）と、画像→クラスの良質な翻訳器（ $p(y|x)$ ）が得られるのであれば、それらから労せずしてクラス→画像の翻訳器を得られるということである。

SGLDでは以下の等式を用いる。 $\nabla _{x}\ln p(x|y)=\nabla _{x}\ln p(y|x)+\nabla _{x}\ln p(x)$ ここで $\nabla _{x}\ln p(x)$ は前述のように学習したスコア関数であり、 $\nabla _{x}\ln p(y|x)$ は微分可能な画像分類器を用いて導かれる。

温度の導入

分類器誘導型の拡散モデルでは $p(x|y)$ から標本抽出を行うが、これは最大事後確率による推定値 $\arg \max _{x}p(x|y)$ の周辺に集中することになる。もしモデルを最尤推定値 $\arg \max _{x}p(y|x)$ に強制的に近づけたいのであれば、以下の式を用いればよい。 $p_{\beta }(x|y)\propto p(y|x)^{\beta }p(x)$ ここで $\beta >0$ は逆温度とみなすことができる。拡散モデルの文脈においては、 $\beta$ は誘導スケールと呼ばれることが多い。 $\beta$ が大きいほど、モデルに対して $\arg \max _{x}p(y|x)$ 周辺に集中した分布からの標本抽出を強制する。これはしばしば生成される画像の品質を改善する^[9]。

温度の導入は、SGLDにおいて $\nabla _{x}\ln p_{\beta }(x|y)=\beta \nabla _{x}\ln p(y|x)+\nabla _{x}\ln p(x)$ とおくだけで実現できる。

分類器フリー誘導（CFG）

分類器 $p(y|x)$ が無い場合でも、画像モデル自体から以下のように分類器を抽出することが可能である^[10]。 $\nabla _{x}\ln p_{\beta }(x|y)=(1-\beta )\nabla _{x}\ln p(x)+\beta \nabla _{x}\ln p(x|y)$ このようなモデルは通常、 $(x,y)$ と $(x,None)$ の双方を与えることで訓練され、それによって $\nabla _{x}\ln p(x|y)$ と $\nabla _{x}\ln p(x)$ をともにモデル化できる。