Analyzing and Improving the Image Quality of StyleGAN
どんなものか ( 要約、システムのI/Oなど)
大幅なアーキテクチャの変更を行いつつ,細かい工夫を効果的に入れることで,StyleGANの結果を超えるモデルを構築することに成功.
先行研究と比べてすごいところ、貢献
AdaINをWeight Demodulationに変更したことで特徴的なアーティファクトを除去.
正則化損失の適用を毎ステップ行わずに,数ステップごとに行うことで高速化.
潜在変数wの変化によって生成画像がなめらかに変化することを強制する正則化を追加.
Progressive Growingな訓練プロセスをやめ,Skip-connectionを導入したGenerator側とDiscriminator側の構造を再考.
https://gyazo.com/6ce0dd7dd6f3349ff7fa467fe3c8a18b
IDスコアやPerceptual Path Lengthは小さくできている
Precisionの劣化を抑えながらRecallを上げている
Frechet Inception Distance(FID)は生成された画像の分布と元の画像の分布がどれだけ近いかを測る指標
Perceptual Path Length(PPL)は「知覚」的につまり我々の感覚で見て潜在空間上で画像が滑らかに変化するか,という指標
Precisionは見た目の良さ
Recallは見た目の多様さ
手法
標準化の前にバイアスやノイズを加えてしまうとその影響が標準化によって拡大されてしまうことがdroplet artifactの原因.これを取り除くために標準化の「後」にバイアスやノイズを加える.
https://www.youtube.com/watch?v=c-NJtV9Jvp0&t=29s
https://gyazo.com/fe37ae8fce9c6b464eecf5a391c29dd0
Conv層の重みwを正規化(Weight Demodulation)
droplet artifactを防ぐ
確率的な仮定に基づいているため,無理な正規化を防ぐ
無駄な演算を省いたため,並列処理が容易になり,学習時間が40%の高速化
https://gyazo.com/6c22aa8fe2a06fd3fa2671aef78711d0
顔のポーズに対して歯の位置や眼球の位置が変わらないphase artifactはProgressive Growing(低解像度のGeneratorとDiscriminatorの訓練から始まり徐々に高解像度にしていく手法)が原因
解像度ごとに学習が全く別のタスクになっている,低解像度マップに高周波成分が多くなり低解像度の学習を忘却していることが原因だと思われる.
https://youtu.be/c-NJtV9Jvp0?t=99
Skip-connectionをもつ生成器・識別器の組み合わせを考えることでphase artifactの問題を解決.
https://gyazo.com/951c2e99f0ae9d67c5c196a1558b44ce
最初は低解像度の画像に注目し,学習が進むにつれてより大きな解像度に注目する
検証方法
本手法で提案されている生成器の AdaIN 部分のアーキテクチャと正則化処理の改善により,従来の StyleGAN で発生していた生成画像や中間特徴マップにおける水滴のシミのようなartifactが発生していないことを定性的に検証している.
https://gyazo.com/58d3ceca96e0bf7d3fab5dde46b0223e
議論、課題
GANの実用化を考えると,必要な学習データを減らすための新しい方法を見つけることが重要.
数万の学習サンプルを得ることが困難な場合や,内在的な変動を多く含むデータセットの場合に特に重要.
次に読むべき論文
MSG-GAN: multi-scale gradient GAN for stable image synthesis.
skip-connectionはMSG-GANをベースにしている