潜在空間
すべてのデータを集めることはできない。
限られたデータの中で、その背後に隠れた情報で構成された空間を潜在空間という。
潜在空間と確率分布
潜在空間は、データの生成プロセスが何らかの確率分布に従っていると考えると理解しやすい
この確率分布からランダムにサンプリングすることで、観測データが生成されるというモデルです。
例: 画像生成
画像生成のための機械学習モデル(例えば、生成的敵対ネットワーク、GAN)では、まずランダムなノイズ(小さな乱数の集まり)を潜在空間からサンプリングします。このランダムなノイズが、画像データの「潜在的な特徴」を表す潜在変数に変換されます。そして、その潜在変数から具体的な画像が生成されます。
潜在空間の確率分布の役割
潜在空間の確率分布は、データセット全体の特徴を捉えることを目指しています。例えば、顔画像のデータセットに対してGANを訓練する場合、潜在空間は顔の様々な特徴(年齢、性別、髪型など)の確率分布を学習します。潜在空間から特定の点をサンプリングすると、その点が特定の顔の特徴の組み合わせを表すことになり、その特徴を持つ顔画像が生成されます。
直感的な理解
潜在空間を一種の「特徴の倉庫」と考えると分かりやすいかもしれません。この倉庫には、データセットに存在する様々な特徴が確率分布として保管されており、それらを組み合わせることで新しいデータポイント(例えば新しい顔画像)を生成できます。