DIFFERENTIALLY PRIVATE SYNTHETIC DATA: APPLIED EVALUATIONS AND ENHANCEMENTS
タイトル: DIFFERENTIALLY PRIVATE SYNTHETIC DATA: APPLIED EVALUATIONS AND ENHANCEMENTS
著者: Lucas Rosenblatt , Xiaoyan Liu, Samira Pouyanfar, Eduardo de Leon, Anuj Desai , Joshua Allen, Microsoft, Microsoft AI Development and Acceleration Program
TL;DR
機械学習における差分プライベートな合成データを生成するSynthesizerであるヒストグラムベースのアプローチ(MWEM)と、データ合成のための4つの差分プライベートGAN(DPGAN, PATE-GAN, DPCTGAN, PATECTGAN)を調査し、大規模なベンチマーク・パイプラインを用いて評価
最近の文献から得られた新しい評価基準と、他の標準的な機械学習ツールを用いてベンチマーク実施
合成データを生成するためのアンサンブルベースのモデリングアプローチであるQUAILを提案
本文
背景
差分プライベートデータ合成は、個人情報の漏洩を防ぎ、非公開で生成されたデータセットで差分プライベート機械学習モデルを学習することが可能である。しかし、差分プライベート合成データの有効性を効果的に評価するにはどうすればよいのか
調査対象の一部紹介
DP-CTGAN
DP-SGDをCTGANアーキテクチャに適用したもの
discriminator(識別器)にランダムなノイズを追加し、ノルムをクリップして差分的にプライベートにする
https://gyazo.com/9b2add63c4eddc73e5f892f2ec5b7015
PATE-CTGAN
PATEフレームワーク(PATE-GAN)をCTGANに適用したもの
データの各サブセットに対してk個のConditional Generatorを初期化
https://gyazo.com/f9a080f728ed9246efedb745a00731d2
MWEM
Multiplicative Weights Exponential Mechanism
乗法的重みとExponential Mechanismを組み合わせて差分プライバシーを実現する
Exponential Mechanism
スコアリング関数s(B, r)を用いて最良の結果セットRを選択するε-differentially privateなアルゴリズムを設計するための一般的なメカニズム
QUAIL(Qualified Architecture to Improve Learning)
アンサンブル手法(Ensemble method)による機械学習用合成差分プライベートデータセットの有用性を向上(つまり、合成データの有用性を高めるためのツール?)
Ensemble method
複数のモデルを作成し、それらを組み合わせることで改善された結果を得る
DP教師あり学習モデルとDP Synthesizerを組み合わせることで、機械学習の実用性が高い柔軟な合成データセットを生成
https://gyazo.com/0d7abfda9422f72673ada39497313664
εを2つに分割し、DP教師あり学習モデルとDP Synthesizerで使用
いけてないDP Synthesizerを使う場合、実用性が向上する?
分割係数p(0 < p < 1)は、classifierとsynthesizerの間の予算の配分を決定
分割係数pを大きくすると、DP教師あり学習モデル($ C(R, ε_C , r' ))により多くのバジェットを割り当てることができ、合成データセット全体の実用性が向上
QUAILの有効性は、synthesizerよりも、組み込みのDP classifierの品質に大きく依存
QUAILの結果は、相対的な性能を示しているため、組み込みのDP教師あり学習アルゴリズムに依存しない
Evaluation
公開データを用いたBenchmark
2つのデータセットの分布的な類似性の比較
評価指標
pMSE
propensity score mean-squared error(pMSE) ratio score
2つのデータセットが与えられた場合、特定の観測がどのセットから来たのかをラベル付けするために、2つを指標と一緒に組み合わせ、discriminatorは、これらの指標ラベルを予測するためにトレーニング
pMSEを計算するには、分類タスクの予測確率の平均二乗誤差を単純に計算
比率: pMSEをnull分布の期待値で割る(スコアが0の場合、2つのデータセットが同一であることを意味)
特定の予測タスクを与えられた合成データセットの有用性の比較
評価指標
AUC-ROC: ROC曲線の下の面積(1になるほど嬉しい)
F1-score: 分類タスク(classification tasks)の平均
RMSE: 平均二乗偏差
SRA(Synthetic Ranking Agreement)
合成データの任意の2つのアルゴリズム間の比較が、実際のデータの同じ2つのアルゴリズムの比較と同様になる確率と考えることができる
同様になる確率が1になるのが嬉しいので、1になるのが嬉しい?
TSTRとTRTRを比較
TSTR(train-synthetic test-real): 差分プライベート合成データを使用してclassifierをトレーニングし、実際のデータをテスト
TRTR(train-real test-real): 差分プライベート合成データを使用してトレーニングとテストを行う
データセット
全ての実験を公開されているデータでやったわけではない。公開データは下記のみ
https://gyazo.com/9757542e3df0c4de3802b85244f23250
ε = {0.01, 0.1, 0.5, 1.0, 3.0, 6.0, 9.0}
結果
全般的にε ≧ 3.0の場合はPATECTGANが、ε ≦ 1.0の場合はDPCTGANが優れている結果
https://gyazo.com/12adc31f695ab0f95d8aa5106bef986f
非常に低いε値でQUAILの改良型が性能が高いが、イプシロンが3以上の場合、DPCTGANとPATECTGANはQUAIL拡張モデルを上回っている
https://gyazo.com/6279037389c24bd582dbe97c7368d679
Mushroomの評価では、QUAILバリアントも他のsynthesizerを上回っている
pMSE指標では、PATECTGANが値に関わらず性能が優れている
synthesizers評価
内部データを用いてClassificationとRegressionを評価
Classification
約100,000のサンプルと30のfeatures
IBMの差分プライバシーを用いたロジスティック回帰分類器を適用
https://gyazo.com/492acfbb685bc564a998103d1d3fd8e1
プライバシーバジェットεが増加すると,一般的に性能が向上
QUAILで強化されたものはsynthesizer性能が向上
DP-CTGANは、QUAILを使用しない場合に最も高い性能
Regression
データセット(非公開データ)
トレーニングサンプル: 27466、テストサンプル: 6867
categorical features: 8、 continuous features: 40
IBMの差分プライバシーをベースにしたLinear Regression modelを使用
実際のデータを使用してDPシンセサイザーを「バニラ」DP Linear Regression(DPLR)と比較
PATECTGANが一番優れている
QUAILで強化されたモデルでは、RMSEが実データや他のDP合成データよりもかなり大きくなっている
QUAILのDP Linear Regressionに起因
DP Linear Regressionのプライバシーバジェット(ε < 10.0)が小さいと、その性能に大きく影響する
SRA
実験結果の一部を抜粋
εの変化によってSRAが1に近くなるのが理想?
https://gyazo.com/17dff15b8abba157f3c2cacc560dc86d
参考
DP-SGD
モデルのSensitivityを下げるために最適化のl2ノルムで勾配をクリッピングし、プライバシーを保護するためにノイズを追加することで、差分プライバシーを維持しながら、その損失関数を最小化
SRA
実装