扩散模型 - Wikiwand

數學原理

於所有圖像的空間中生成一張圖像

考慮圖像生成問題。令 $x$ 代表一張圖，令 $p(x)$ 為在所有可能圖像上的機率分布。若有 $p(x)$ 本身，便可以肯定地說給定的一張圖的機率有多大。但這在一般情況下是難以解決的。

大多數時候，我們並不想知道某個圖像的絕對機率，相反，我們通常只想知道某個圖像與它的周圍相比，機率有多大：一張貓的圖像與它的小變體相比，機率哪個大？如果圖像里有一根、兩根或三根鬍鬚，或者加入了一些高斯噪聲，機率會更大嗎？

因此，我們實際上對 $p(x)$ 本身不感興趣，而對 $\nabla _{x}\ln p(x)$ 感興趣。這有兩個效果：

其一，我們不再需要標準化 $p(x)$ ，而是可以用任何 ${\tilde {p}}(x)=Cp(x)$ ，其中 $C=\int {\tilde {p}}(x)dx>0$ 是任意常數，我們不需要去關心它。
其二，我們正在比較 $p(x)$ 的鄰居 $p(x+dx)$ ，通過 ${\frac {p(x)}{p(x+dx)}}=e^{-\langle \nabla _{x}\ln p,dx\rangle }$

令分數函數為 $s(x):=\nabla _{x}\ln p(x)$ ，然後考慮我們能對 $s(x)$ 做什麼。

實際上， $s(x)$ 允許我們用隨機梯度朗之萬動力學從 $p(x)$ 中取樣，這本質上是馬爾可夫鏈蒙特卡洛的無限小版本。^[2]

Remove ads

學習分數函數

分數函數可通過加噪-去噪學習。^[1]

主要變體

分類指導器

假設我們希望不是從整個圖像的分布中取樣，而是以圖像描述為條件取樣。我們不想從一般的圖像中取樣，而是從符合描述「紅眼睛的黑貓」的圖片中取樣。一般來說，我們想從分布 $p(x|y)$ 中取樣，其中 $x$ 的範圍是圖像， $y$ 的範圍是圖像的類別（對y而言，「紅眼黑貓」的描述過於精細，「貓」又過於模糊）。

從噪聲信道模型的角度來看，我們可以將這一過程理解如下：為生成可描述為 $y$ 的圖像 $x$ ，我們設想請求者腦海中真有一張圖像 $x$ ，但它經過多次加噪，出來的是毫無意義可言的亂碼，也就是 $y$ 。這樣一來圖像生成只不過是推斷出請求者心中的 $x$ 是什麼。

換句話說，有條件的圖像生成只是「從文本語言翻譯成圖像語言」。之後，像在噪聲信道模型中一樣，我們可以用貝葉斯定理得到 $p(x|y)\propto p(y|x)p(x)$ 也就是說，如果我們有一個包含所有圖像空間的好模型，以及一個圖像到類別的好翻譯器，我們就能「免費」得到一個類別到圖像的翻譯器，也就是文本到圖像生成模型。

SGLD使用 $\nabla _{x}\ln p(x|y)=\nabla _{x}\ln p(y|x)+\nabla _{x}\ln p(x)$ 其中 $\nabla _{x}\ln p(x)$ 是分數函數，如上所述進行訓練，用可微圖像分類器便可以找到 $\nabla _{x}\ln p(y|x)$ 。

Remove ads

溫度

分類器引導的擴散模型會從 $p(x|y)$ 中取樣，它集中在最大後驗概率 $\arg \max _{x}p(x|y)$ 周圍。如果我們想迫使模型向最大似然估計 $\arg \max _{x}p(y|x)$ 的方向移動，可以用 $p_{\beta }(x|y)\propto p(y|x)^{\beta }p(x)$ 其中 $\beta >0$ 可解釋為逆溫度，在擴散模型研究中常稱其為制導尺度（guidance scale）。較高的 $\beta$ 會迫使模型在更靠近 $\arg \max _{x}p(y|x)$ 的分布中採樣。這通常會提高生成圖像的品質。^[7]

這可以簡單地通過SGLD實現，即 $\nabla _{x}\ln p_{\beta }(x|y)=\beta \nabla _{x}\ln p(y|x)+\nabla _{x}\ln p(x)$

Remove ads

無分類指導器

如果我們沒有分類器 $p(y|x)$ ，我們仍可以從圖像模型本身提取一個：^[8] $\nabla _{x}\ln p_{\beta }(x|y)=(1-\beta )\nabla _{x}\ln p(x)+\beta \nabla _{x}\ln p(x|y)$ 這樣的模型通常要在訓練時提供 $(x,y)$ 和 $(x,None)$ ，這樣才能讓它同時為 $\nabla _{x}\ln p(x|y)$ 和 $\nabla _{x}\ln p(x)$ 建模。