DIFFERENTIALLY PRIVATE SYNTHETIC DATA: APPLIED EVALUATIONS AND ENHANCEMENTS

#LayerX_Newsletter 2021-11-19

タイトル: DIFFERENTIALLY PRIVATE SYNTHETIC DATA: APPLIED EVALUATIONS AND ENHANCEMENTS

著者: Lucas Rosenblatt , Xiaoyan Liu, Samira Pouyanfar, Eduardo de Leon, Anuj Desai , Joshua Allen, Microsoft, Microsoft AI Development and Acceleration Program

リンク: https://arxiv.org/pdf/2011.05537.pdf

TL;DR

機械学習における差分プライベートな合成データを生成するSynthesizerであるヒストグラムベースのアプローチ(MWEM)と、データ合成のための4つの差分プライベートGAN(DPGAN, PATE-GAN, DPCTGAN, PATECTGAN)を調査し、大規模なベンチマーク・パイプラインを用いて評価

最近の文献から得られた新しい評価基準と、他の標準的な機械学習ツールを用いてベンチマーク実施

合成データを生成するためのアンサンブルベースのモデリングアプローチであるQUAILを提案

本文

背景

差分プライベートデータ合成は、個人情報の漏洩を防ぎ、非公開で生成されたデータセットで差分プライベート機械学習モデルを学習することが可能である。しかし、差分プライベート合成データの有効性を効果的に評価するにはどうすればよいのか

調査対象の一部紹介

DP-CTGAN

DP-SGDをCTGANアーキテクチャに適用したもの

discriminator(識別器)にランダムなノイズを追加し、ノルムをクリップして差分的にプライベートにする

https://gyazo.com/9b2add63c4eddc73e5f892f2ec5b7015

PATE-CTGAN

PATEフレームワーク(PATE-GAN)をCTGANに適用したもの

データの各サブセットに対してk個のConditional Generatorを初期化

https://gyazo.com/f9a080f728ed9246efedb745a00731d2

MWEM

Multiplicative Weights Exponential Mechanism

乗法的重みとExponential Mechanismを組み合わせて差分プライバシーを実現する

Exponential Mechanism

スコアリング関数s(B, r)を用いて最良の結果セットRを選択するε-differentially privateなアルゴリズムを設計するための一般的なメカニズム

QUAIL(Qualified Architecture to Improve Learning)

アンサンブル手法(Ensemble method)による機械学習用合成差分プライベートデータセットの有用性を向上(つまり、合成データの有用性を高めるためのツール？)

Ensemble method

複数のモデルを作成し、それらを組み合わせることで改善された結果を得る

DP教師あり学習モデルとDP Synthesizerを組み合わせることで、機械学習の実用性が高い柔軟な合成データセットを生成

https://gyazo.com/0d7abfda9422f72673ada39497313664

εを２つに分割し、DP教師あり学習モデルとDP Synthesizerで使用

いけてないDP Synthesizerを使う場合、実用性が向上する？

分割係数p（0 < p < 1）は、classifierとsynthesizerの間の予算の配分を決定

分割係数pを大きくすると、DP教師あり学習モデル($ C(R, ε_C , r' ))により多くのバジェットを割り当てることができ、合成データセット全体の実用性が向上

QUAILの有効性は、synthesizerよりも、組み込みのDP classifierの品質に大きく依存

QUAILの結果は、相対的な性能を示しているため、組み込みのDP教師あり学習アルゴリズムに依存しない

Evaluation

公開データを用いたBenchmark

2つのデータセットの分布的な類似性の比較

評価指標

pMSE

propensity score mean-squared error(pMSE) ratio score

2つのデータセットが与えられた場合、特定の観測がどのセットから来たのかをラベル付けするために、2つを指標と一緒に組み合わせ、discriminatorは、これらの指標ラベルを予測するためにトレーニング

pMSEを計算するには、分類タスクの予測確率の平均二乗誤差を単純に計算

比率: pMSEをnull分布の期待値で割る(スコアが0の場合、２つのデータセットが同一であることを意味)

特定の予測タスクを与えられた合成データセットの有用性の比較

評価指標

AUC-ROC: ROC曲線の下の面積(1になるほど嬉しい)

F1-score: 分類タスク(classification tasks)の平均

RMSE: 平均二乗偏差

SRA(Synthetic Ranking Agreement)

合成データの任意の2つのアルゴリズム間の比較が、実際のデータの同じ2つのアルゴリズムの比較と同様になる確率と考えることができる

同様になる確率が1になるのが嬉しいので、１になるのが嬉しい？

TSTRとTRTRを比較

TSTR(train-synthetic test-real): 差分プライベート合成データを使用してclassifierをトレーニングし、実際のデータをテスト

TRTR(train-real test-real): 差分プライベート合成データを使用してトレーニングとテストを行う

データセット

全ての実験を公開されているデータでやったわけではない。公開データは下記のみ

Adult、Car、Mushroom、Bank、Shopping(http://archive.ics.uci.edu/ml/index.php)

https://gyazo.com/9757542e3df0c4de3802b85244f23250

ε = {0.01, 0.1, 0.5, 1.0, 3.0, 6.0, 9.0}

結果

全般的にε ≧ 3.0の場合はPATECTGANが、ε ≦ 1.0の場合はDPCTGANが優れている結果

https://gyazo.com/12adc31f695ab0f95d8aa5106bef986f

非常に低いε値でQUAILの改良型が性能が高いが、イプシロンが3以上の場合、DPCTGANとPATECTGANはQUAIL拡張モデルを上回っている

https://gyazo.com/6279037389c24bd582dbe97c7368d679

Mushroomの評価では、QUAILバリアントも他のsynthesizerを上回っている

pMSE指標では、PATECTGANが値に関わらず性能が優れている

synthesizers評価

内部データを用いてClassificationとRegressionを評価

Classification

約100,000のサンプルと30のfeatures

IBMの差分プライバシーを用いたロジスティック回帰分類器を適用

https://gyazo.com/492acfbb685bc564a998103d1d3fd8e1

プライバシーバジェットεが増加すると，一般的に性能が向上

QUAILで強化されたものはsynthesizer性能が向上

DP-CTGANは、QUAILを使用しない場合に最も高い性能

Regression

データセット(非公開データ)

トレーニングサンプル: 27466、テストサンプル: 6867

categorical features: 8、 continuous features: 40

IBMの差分プライバシーをベースにしたLinear Regression modelを使用

実際のデータを使用してDPシンセサイザーを「バニラ」DP Linear Regression(DPLR)と比較

PATECTGANが一番優れている

QUAILで強化されたモデルでは、RMSEが実データや他のDP合成データよりもかなり大きくなっている

QUAILのDP Linear Regressionに起因

DP Linear Regressionのプライバシーバジェット（ε < 10.0）が小さいと、その性能に大きく影響する

SRA

実験結果の一部を抜粋

εの変化によってSRAが1に近くなるのが理想？

https://gyazo.com/17dff15b8abba157f3c2cacc560dc86d

参考

DP-SGD

モデルのSensitivityを下げるために最適化のl2ノルムで勾配をクリッピングし、プライバシーを保護するためにノイズを追加することで、差分プライバシーを維持しながら、その損失関数を最小化

SRA

https://arxiv.org/pdf/1806.11345.pdf

https://www.vanderschaar-lab.com/synthetic-data-breaking-the-data-logjam-in-machine-learning-for-healthcare/

実装

https://github.com/opendp/smartnoise-sdk/blob/6879ddea02cf85246d6342556fbf1e34c636adc2/dpsdgym/metrics/sra.py