「Privacy-Preserving Synthetic Location Data in the Real World」を読んだ
位置データを外部提供する際、メッシュ化(緯度軽度小数点丸め、クラスタリングなどに基づいたk-匿名化)・ランダム化(位置データのランダム移動)・ノイズ付加(ダミーデータ追加)などで匿名加工されるが、多くの場合これらはデータの有用性を大きく損なう処理である。
そこで、データ合成技術を用いて、匿名性を維持しつつ、より有用性高く、オリジナルデータと同じフォーマット・属性を維持した位置データの提供が考えられる。
一般的に、合成データは多変量相関を考慮
ここでは、(移動情報ではなく)IDなし位置情報を考える
cipepser.icon モチベ的には、位置データの解析を行うにあたり有用性を損なうことなく、位置データ分布をモデリングしたいって理解で合ってます?
特にここでいうモデリング is 座標系を作る?(自信ない)
雑にgrid作るんじゃなく、地図データも考慮したり、疎密がある座標系(山とかは荒くていいけど、街中は細かくしたい)を作るのかな?みたいなイメージでおりますmm
当論文で既存研究と比較した特徴的なポイントは以下である。
ノンパラメトリック手法(カーネル密度推定)とDPを用いてプライバシーを考慮した現実世界に近い位置データの分布
差分プライバシーメカニズムを用いた集計値にノイズを付加
固定のグリッド内で均一的に位置データが分布している仮定の排除
地図データを考慮した位置データの分布
以前のアプローチ(?)と比較して、28倍の精度向上、3.7倍の処理速度
partitioning-based approach
kernel density estimationを用いた位置データ生成
grid-based methods
uniform grid (UGrid)
adaptive grid (AGrid)
clustering- based methods
expanded uniform grid K-means(EUGKM)
地図データに対して位置データがうまく整列されていなかったり、地図データそのものが使えないケース
network-based approach
道などの地図情報を用いて合成データに制約を課し精度を高める
partitioning-basedより37倍速い
https://gyazo.com/b05d5e3e2828d3d901d6fd33091d32cf
ロードネットワークをグラフ表現
.$ d(p, e_p)
実際の位置pからエッジまでの垂直距離
.$ \pi(p, e_p)
射影
.$ l(p, e_p)
ノードまでの距離
合成ポイントsを生成
.$ l(p, e_p)の相関
長い道(エッジ)であるとランダムにアサインすると有用性が低くなる
それぞれのエッジにおいて、エッジ長の$ \alpha個のヒストグラムを生成し、DPノイズを加えた上でサンプリング
https://gyazo.com/9975aa2f000bb8f00855467b1111e512
.$ d(p, e_p)の相関
上記と同じ手法
エッジに対してどちらのサイドにあるかの相関
脅威モデル
メンバーシップ推定
位置識別
evaluations
データセット:
Beijing, Porto: Taxi移動情報
レコード:緯度・経度ペアのみ抽出
地図データ:OpenStreetMap
https://gyazo.com/7803aab825edf6b7cc15f8b41f425f17
https://gyazo.com/c59ac62de015ae1967f147e186365a20
Normalized Cell Error (NCE)
リージョンを特定個数のセルごとに分割してそれらのセルに含まれている地点数の平均絶対誤差
https://gyazo.com/3bcc3ca568b19b8a5bd2f121450ac4f6
レンジクエリ(特定の地点から半径r以内の人数)の平均絶対誤差
https://gyazo.com/8555692ba9fa83f5bd015a8860bb79bd
ホットスポットクエリ
95%信頼区間でグリッドサイズの変化に対するDice係数 (SDC)
N.Y.:地図データとオリジナル位置データの整合性が良かった
https://gyazo.com/635724f8d3b26348dcf2151e01a92d11