CTGAN: Modeling Tabular data using Conditional GAN
Lei Xu, Maria Skoularidou, Alfredo Cuesta-Infante, Kalyan Veeramachaneni NeurIPS 2020
cited by ~120
Master thesis by Lei Xu
implementations
adds Differential Privacy to CTGAN
example
https://gyazo.com/9423ec5fc5d05de4498163bf5feb4bc8
Generator
最初は乱数ベクトルからスタートし生成したtabular dataをdiscriminatorが本物と判別するように学習
Critic(学習時のみ)
Real Dataは本物と判別し、Synthetic Dataは偽物と判別するように学習
Conditional
合成データが本物か合成かに対する教師あり学習であり、このtabular dataがどのカテゴリに対応するかの教師あり学習は行っていない。
ラベル情報もinputすることで、どのカテゴリを学習するかに関わらず特徴を学習
特徴:generatorの潜在変数
generatorの潜在変数とカテゴリ情報を切り離して考え、カテゴリ情報の条件下での生成モデル、識別モデルを生成する必要。
Network Structure
https://gyazo.com/c1387c336155085e9216f63fa622b9cb
表形式データの特徴
Mixed data types
離散カラムと連続カラムを同時に扱うためにGANはoutputにsoftmaxとtanhの両方を適用する必要がある
Non-Gaussian distributions
imageのpixel値はmin-max transformationを使って[-1, 1に正規化できるgaussian-liike分布に従うが、tabularの連続値は従わない。
Multimodal distributions
カラムの最頻値の数を推定するため、カーネル密度推定を利用。複数の最頻値を持つからむは57/123あった。vanilla GANは全ての最頻値をモデル化できないことがわかっている
Learning from sparse one-hot-encoded vectors
Highly imbalanced categorical columns
メジャーなカテゴリが90%以上の行で登場するなどの偏り