XLogo

Research

Articles

VAE 変換法と特徴

記事のまとめ

  1. VAEは確率的なマッピングを用いたAEである。
  2. VAEは近い意味が近い位置にあることを保証している。
  3. VAEは標準正規分布を使用して効率的に学習を行っている。

VAEとは?

VAE(Variational Autoencoderes)は2013年にアムステルダムのDiederik P. Kingma氏とMax Welling 氏によって発表された論文""Auto-Encoding Variational Bayes""で登場したデータ生成に長けた アーキテクチャです。本記事ではVAEのマッピング方法と特徴を具体的に解説します。

前提知識1:標準正規分布

正規分布

引用:https://ja.wikipedia.org/wiki/%E6%AD%A3%E8%A6%8F%E5%88%86%E5%B8%83
made by: M.W.Toews

正規分布とは図のような確率分布で、以下の式で表されます。
12πσe12(xμσ)2\frac {1} {\sqrt{2\pi}\sigma} e^{{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2}}
μ\muは確率分布の平均、σ\sigmaは確率分布の標準偏差を示します。

正規分布の特徴は、次の通りです。このような特徴から、様々な事象をモデル化した分布として利用されています。

標準正規分布とは、平均μ=0\mu=0かつ分散σ2=0\sigma^2=0の正規分布を指します。標準正規分布はその安定性の特徴から、多くの分野で使用されているモデルです。

前提知識2:AE

AE
AE(オートエンコーダ)とはエンコーダとデコーダからなるアーキテクチャで、データをより小さな次元に圧縮し、再構成することを目的としています。 オートエンコーダは目的に合わせて損失関数を設定して学習を行います。

例えば、画像のノイズを除去するオートエンコーダを作成したい場合、入力を"ある画像にノイズを加えた画像"、損失関数を"元の画像と出力の差"と定義します。 すると、オートエンコーダはノイズのある画像からノイズのない画像を出力するように学習します。

このように、オートエンコーダとは無駄な情報を省き、重要な情報を保持する機能を持っています。オートエンコーダは画像の特徴を潜在変数として学習することで、低次元からでも元の画像に復元することが出来るのです。

VAEのマッピング方法

VAE_Map
VAEは確率的なマッピングを行うAEを指します。VAEに入力されたデータは全結合層、または畳み込み層を通って活性化関数に入力されます。 ここまではAEと同様ですが、VAEでは活性化関数の出力をそのままマッピングせず、確率的にマッピングを行います。確率的なマッピング式は以下で表されます。
z=μ+σϵz=\mu + \sigma \cdot \epsilon
ϵ\epsilonは標準正規分布からランダムにサンプリングされた値で、μ\muは確率分布の平均、σ\sigmaは確率分布の標準偏差を示します。確率分布は初期値を標準正規分布として、設定されています。

つまり、AEは潜在変数zzを出力するのに対し、VAEはμ\muσ\sigmaを エンコーダを用いて出力し、 確率的に潜在変数zzをマッピングしています。
※実際には数値の安定性のため、出力はμ\mulogσ2\log \sigma^2が使用されています。

VAEの特徴

マッピング方法から、VAEは潜在空間をより明確に表現することが出来ます。

入出力が同じような画像になるように訓練されたAEとVAEを考えます。
AEのマッピングでは1点にマッピングを行っているので、潜在変数zzの周辺がどのような画像に対応しているのかわかりません。
VAEでは、確率的にある分布にマッピングすることで、似たような画像は近い位置にマッピングされていることが分かります。

この性質は画像生成を行う上で非常に有用な性質です。潜在変数に直接アクセスして、画像を生成する場合、AEでは少しの値のずれで出力画像が異なるものになってしまうのに対し、VAEは値がずれても似たような画像になることが保証されているからです。

また、学習時の損失関数は以下の式で表されます。
L=DKL(q(zx)p(z))+Eq(zx)[logpθ(xz)]L=-D_{KL}(q(z|x)||p(z))+E_{q(z|x)}[\log {p_{\theta}}(x|z)]
第1項のKLダイバージェンスは入力xxから生成されるzzの分布と事前分布として設定されている標準正規分布との距離を測る項です。この項を持つことで、zzの分布を出来るだけ初期値である標準正規分布に留めることが出来、生成モデルの性能を向上させることが出来ます。 第2項は出力と正解ラベルの誤差を示します。

まとめ

本記事ではVAEのマッピング方法と特徴をまとめました。

VAEは確率的なマッピングを行うことで、潜在変数からデータを生成する際に近いデータが似た意味を持つことを保証しています。
また、損失関数にKLダイバージェンスの式を使用し、標準正規分布に近い分布を維持することで、効率的に学習を行うことが出来ます。

このような特徴から、現在では画像生成モデルであるDiffusion Modelに使用されています。



ご愛読ありがとうございます。