基于流的生成模型

基於流的生成模型（英語：flow-based generative model）是機器學習中的一類生成模型，利用歸一化流（normalizing flow）顯式建模概率分布。^[1]^[2]^[3]這是一種使用概率密度變量變換法將簡單分布轉換為複雜分布的統計方法。

直接建模似然函數具有很多優點。例如，可以直接計算得到負對數似然並將其作為損失函數最小化。此外，通過從初始分布中採樣並應用流變換可以生成新的樣本。

相比之下，變分自編碼器、生成對抗網絡等其他生成模型無法顯式地表示似然函數。

方法

考慮隨機變量 $z_{1}$ 和 $z_{0}$ ，其中 $z_{0}=f_{1}^{-1}(z_{1})$ 。對於 $i=1,...,K$ ，定義一系列由 $z_{0}$ 變換得到的隨機變量 $z_{i}=f_{i}(z_{i-1})$ 。其中函數 $f_{1},...,f_{K}$ 滿足可逆性，即存在反函數 $f_{i}^{-1}$ 。最終輸出變量 $z_{K}$ 用於對目標分布進行建模。

$z_{K}$ 的對數似然為（參見下方推導過程）：

\log p_{K}(z_{K})=\log p_{0}(z_{0})-\sum _{i=1}^{K}\log \left|\det {\frac {df_{i}(z_{i-1})}{dz_{i-1}}}\right|

為了高效計算對數似然，函數 $f_{1},...,f_{K}$ 應既易於求逆，也易於計算其雅可比矩陣的行列式。在實踐中，這些函數通常使用深度神經網絡建模，並通過訓練以最小化目標分布數據樣本的負對數似然。這些架構一般設計為只需神經網絡的正向傳播即可完成逆運算與雅可比行列式的計算，例如NICE^[4]、RealNVP^[5]、Glow^[6]等。

Remove ads

對數似然的推導

考慮 $z_{1}$ 與 $z_{0}$ ，兩者之間滿足 $z_{0}=f_{1}^{-1}(z_{1})$ 。通過概率密度變量變換公式， $z_{1}$ 的分布為：

p_{1}(z_{1})=p_{0}(z_{0})\left|\det {\frac {df_{1}^{-1}(z_{1})}{dz_{1}}}\right|

其中 $\det {\frac {df_{1}^{-1}(z_{1})}{dz_{1}}}$ 是 $f_{1}^{-1}$ 的雅可比矩陣的行列式。

由反函數定理可以得到

p_{1}(z_{1})=p_{0}(z_{0})\left|\det \left({\frac {df_{1}(z_{0})}{dz_{0}}}\right)^{-1}\right|

使用行列式性質 $\det(A^{-1})=\det(A)^{-1}$ （其中 $A$ 是可逆矩陣），則有：

p_{1}(z_{1})=p_{0}(z_{0})\left|\det {\frac {df_{1}(z_{0})}{dz_{0}}}\right|^{-1}

對上式取對數後得到對數似然：

\log p_{1}(z_{1})=\log p_{0}(z_{0})-\log \left|\det {\frac {df_{1}(z_{0})}{dz_{0}}}\right|

對於任意 $z_{i}$ 和 $z_{i-1}$ 都能得到類似結論。最終由遞歸關係可以得到：

\log p_{K}(z_{K})=\log p_{0}(z_{0})-\sum _{i=1}^{K}\log \left|\det {\frac {df_{i}(z_{i-1})}{dz_{i-1}}}\right|

Remove ads

訓練方法

與訓練其他一些深度學習模型類似，歸一化流的目標是最小化模型的似然分布與目標分布之間的KL散度。將模型的似然分布記為 $p_{\theta }$ ，要學習的目標分布記為 $p^{*}$ ，則（正向）KL散度為：

D_{KL}[p^{*}(x)||p_{\theta }(x)]=-\mathbb {E} _{p^{*}(x)}[\log(p_{\theta }(x))]+\mathbb {E} _{p^{*}(x)}[\log(p^{*}(x))]

上式右邊第二項表示目標分布的熵，與模型參數 $\theta$ 無關，因此在優化時可以忽略，留下需要最小化的項是目標分布下的負對數似然的期望。由於此項難以直接計算，可以通過重要性採樣的蒙特卡洛方法來近似。若已從目標分布 $p^{*}(x)$ 中獨立採樣得到的數據集 $\{x_{i}\}_{i=1:N}$ 從的樣本，則該項可近似估計為：

-{\hat {\mathbb {E} }}_{p^{*}(x)}[\log(p_{\theta }(x))]=-{\frac {1}{N}}\sum _{i=0}^{N}\log(p_{\theta }(x_{i}))

因此，可以將學習目標

{\underset {\theta }{\operatorname {arg\,min} }}\ D_{KL}[p^{*}(x)||p_{\theta }(x)]

替換為

{\underset {\theta }{\operatorname {arg\,max} }}\ \sum _{i=0}^{N}\log(p_{\theta }(x_{i}))

換句話說，最小化KL相度相當於最大化模型在觀測樣本下的似然。^[7]

訓練歸一化流的偽代碼如下：^[8]

輸入：數據集 $x_{1:n}$ ，歸一化流模型 $f_{\theta }(\cdot ),p_{0}$
求解：通過梯度下降法最化 $\max _{\theta }\sum _{j}\ln p_{\theta }(x_{j})$
輸出：優化後的參數 ${\hat {\theta }}$

Remove ads

變體

平面流

平面流（planar flow）是最早的歸一化流方法。^[9]給定某個激活函數 $h$ ，以及具有適當維度的參數 $\theta =(u,w,b)$ ，可以定義 $x=f_{\theta }(z)=z+uh(\langle w,z\rangle +b)$ 一般而言，逆映射 $f_{\theta }^{-1}$ 沒有解析解。

相應的雅可比行列式為 $|\det(I+h'(\langle w,z\rangle +b)uw^{T})|=|1+h'(\langle w,z\rangle +b)\langle u,w\rangle |$ 。

為保證其處處可逆，行列式必須在整個定義域內非零。例如當 $h=\tanh$ 、 $\langle u,w\rangle >-1$ 時可以滿足可逆性要求。

Remove ads

非線性獨立成分估計（NICE）

非線性獨立成分估計（nonlinear independent components estimation，簡稱NICE）假設 $x,z\in \mathbb {R} ^{2n}$ 是偶數維變量，並將其從中間分成兩部分。^[10]此時歸一化流的定義為

x={\begin{bmatrix}x_{1}\\x_{2}\end{bmatrix}}=f_{\theta }(z)={\begin{bmatrix}z_{1}\\z_{2}\end{bmatrix}}+{\begin{bmatrix}0\\m_{\theta }(z_{1})\end{bmatrix}}

其中 $m_{\theta }$ 是任何帶有權重 $\theta$ 的神經網絡。

其逆映射 $f_{\theta }^{-1}$ 為 $z_{1}=x_{1},z_{2}=x_{2}-m_{\theta }(x_{1})$ ，雅可比行列式為1，即該歸一化流動是體積保持（volume-preserving）的。

當 $n=1$ 時，這一映身可以視為沿 $x_{2}$ 方向的一種曲線剪切。

Remove ads

實值非體積保持（Real NVP）

實值非體積保持（real non-volume preserving，簡稱Real NVP）是NICE模型的一種推廣，定義為：^[11]

x={\begin{bmatrix}x_{1}\\x_{2}\end{bmatrix}}=f_{\theta }(z)={\begin{bmatrix}z_{1}\\e^{s_{\theta }(z_{1})}\odot z_{2}\end{bmatrix}}+{\begin{bmatrix}0\\m_{\theta }(z_{1})\end{bmatrix}}

其逆映射是 $z_{1}=x_{1},z_{2}=e^{-s_{\theta }(x_{1})}\odot (x_{2}-m_{\theta }(x_{1}))$ ，相應的雅可比行列式為 $\prod _{i=1}^{n}e^{s_{\theta }(z_{1,})}$ 。當 $s_{\theta }=0$ 時，退化為NICE模型。由於Real NVP映射將向量 $x$ 的兩部分分開處理，通常需要在每一層後添加一個置換操作 $(x_{1},x_{2})\mapsto (x_{2},x_{1})$ 。

Remove ads

生成流（Glow）

生成流（generative flow，簡稱Glow）模型^[12]中每層由三個部分組成：

通道方向的仿射變換 $y_{cij}=s_{c}(x_{cij}+b_{c})$ 相應的雅可比行列式為 $\prod _{c}s_{c}^{HW}$ 。
可逆1x1卷積 $z_{cij}=\sum _{c'}K_{cc'}y_{cij}$ 相應的雅可比行列式為 $\det(K)^{HW}$ ，其中 $K$ 是任意可逆矩陣。
Real NVP部分，其雅可比行列式如前所述。

生成流通過引入可逆1x1卷積，改進了Real NVP中僅僅置換前後兩部分的方式，而是對所有層的通道進行總體上的置換。

Remove ads

掩碼自回歸流（MAF）

掩碼自回歸流（masked autoregresssive flow，簡稱MAF）基於自回歸模型，其定義了一個分布在 $\mathbb {R} ^{n}$ 上的隨機過程^[13]：

{\begin{aligned}x_{1}\sim &N(\mu _{1},\sigma _{1}^{2})\\x_{2}\sim &N(\mu _{2}(x_{1}),\sigma _{2}(x_{1})^{2})\\&\cdots \\x_{n}\sim &N(\mu _{n}(x_{1:n-1}),\sigma _{n}(x_{1:n-1})^{2})\\\end{aligned}}

其中 $\mu _{i}:\mathbb {R} ^{i-1}\to \mathbb {R}$ 和 $\sigma _{i}:\mathbb {R} ^{i-1}\to (0,\infty )$ 是定義自回歸模型的固定函數。

使用重參數化技巧（英語：Reparameterization trick），該自回歸模型可以被推廣為歸一化流：

{\begin{aligned}x_{1}=&\mu _{1}+\sigma _{1}z_{1}\\x_{2}=&\mu _{2}(x_{1})+\sigma _{2}(x_{1})z_{2}\\&\cdots \\x_{n}=&\mu _{n}(x_{1:n-1})+\sigma _{n}(x_{1:n-1})z_{n}\\\end{aligned}}

令 $z\sim N(0,I_{n})$ 可以重新得到自回歸模型。

正向映射由於是順序性的因而會很慢，但反向映射因為可以並列而會比較很快。

相應的雅可比矩陣是下對角矩陣，其行列式為 $\sigma _{1}\sigma _{2}(x_{1})\cdots \sigma _{n}(x_{1:n-1})$ 。

通過反轉 $f_{\theta }$ 和 $f_{\theta }^{-1}$ 這兩個映射，可以得到逆自回歸流 (inverse autoregressive flow，簡稱IAF)。與MAF相反，IAF的正向映射較快、反向映射較慢。^[14]

Remove ads

連續歸一化流（CNF）

除了通過函數組合來構建流的方法，另一種方法是將流表示為連續時間動力學，得到連續歸一化流（continuous normalizing flow，簡稱CNF）。^[15]^[16]設 $z_{0}$ 為具有分布 $p(z_{0})$ 的潛變量，使用以下流函數將此潛變量映射到數據空間：

x=F(z_{0})=z_{T}=z_{0}+\int _{0}^{T}f(z_{t},t)dt

其中 $f$ 是任意函數，可以使用神經網絡等進行建模。其反函數為：^[17]

z_{0}=F^{-1}(x)=z_{T}+\int _{T}^{0}f(z_{t},t)dt=z_{T}-\int _{0}^{T}f(z_{t},t)dt

於是可以得到 $x$ 的對數似然：^[18]

\log(p(x))=\log(p(z_{0}))-\int _{0}^{T}{\text{Tr}}\left[{\frac {\partial f}{\partial z_{t}}}\right]dt

由於上式中的跡僅取決於雅可比矩陣 $\partial _{z_{t}}f$ 的對角線，這意味着對雅可比矩陣的形式沒有任何限制。^[19]這與先前的離散歸一化模型不同，後者將雅可比矩陣設計為上對角或下對角形式，以便更高效地計算其行列式。

其中的跡可以使用「哈欽森技巧」（Hutchinson's trick）來估計^[20]^[21]：給定任意矩陣 $W\in \mathbb {R} ^{n\times n}$ 以及滿足 $E[uu^{T}]=I$ 的任意隨機向量 $u\in \mathbb {R} ^{n}$ ，可以得到 $E[u^{T}Wu]=tr(W)$ 。

通常，隨機向量 $u$ 可以從正態分布 $N(0,I)$ 或拉德馬赫分布（英語：Rademacher） $\{\pm n^{-1/2}\}^{n}$ 中進行採樣。

當 $f$ 由神經網絡實現時，需要使用神經常微分方程^[22]。實際上，CNF最早是與神經常微分方程在同一篇論文中提出的。

CNF主要存在兩個缺陷：一是連續流必須是同胚的，從而保持方向性和環境同痕（英語：Ambient isotopy）（例如，不可能通過空間連續變形將左手翻轉為右手，也不可能將球面外翻或解開一個結），二是學習到的流 $f$ 可能會由於退化而表現不佳（有無數個可能的 $f$ 都能解決同一問題)。

通過增加額外的維度，CNF可以獲得足夠的自由度來反轉方向並突破環境同痕（類似於可以在三維空間中翻轉一個多邊形，或在四維空間中解開一個結），從而得到「增強神經常微分方程」。^[23]

通過結合流形的惠特尼嵌入定理（英語：Whitney embedding theorem）和神經網絡的通用近似定理，能夠證明 $\mathbb {R} ^{n}$ 的任何同胚可以由 $\mathbb {R} ^{2n+1}$ 上的神經常微分方程近似。^[24]

還可以為流 $f$ 引入正則化損失，例如基於最優傳輸理論的正則化損失：^[25]

\lambda _{K}\int _{0}^{T}\left\|f(z_{t},t)\right\|^{2}dt+\lambda _{J}\int _{0}^{T}\left\|\nabla _{z}f(z_{t},t)\right\|_{F}^{2}dt

其中 $\lambda _{K},\lambda _{J}>0$ 是超參數。第一項懲罰模型隨時間變化流場的振盪，第二項則懲罰模型隨空間變化流場的振盪。這兩項共同引導模型生成在空間和時間上平滑的流。

Remove ads

缺點

儘管歸一化流在估計高維概率密度函數方面取得了成功，但其設計仍然存在一些缺陷。首先，歸一化流的潛空間並不是一個低維空間，因此基於流的模型默認情況下不支持數據壓縮，需要很大的計算量。不過，仍有辦法可以用它們進行圖像壓縮。^[26]

此外，基於流的模型在估計分布外樣本（即非訓練集分布中抽取的樣本）的似然值時通常表現不佳。^[27]學者提出了一些假設來解釋這一現象，其中包括典型集假設^[28]、模型訓練中的估計問題^[29]或由於數據分布熵引起的基礎性問題^[30] 。

歸一化流最有趣的特性之一是其學習到的雙射映射的可逆性。這一特性通過模型設計中的約束得以保證，從而確保理論上的可逆性。逆映射對確保變量變換定理的適用性、雅可比行列式的計算以及模型採樣都至關重要。然而在實踐中，由於數值不精確性，這種可逆性可能被破壞，進而導致逆映射爆炸。^[31]

應用

基於流的生成模型已應用於多種場景，例如：

音頻生成^[32]
圖像生成^[33]
分子圖生成^[34]
點雲建模^[35]
視頻生成^[36]
有損圖像壓縮^[37]
異常檢測^[38]

參考文獻

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads