Empirical Study of Two Aspects of the Topdown Algorithm Output for Redistricting: Reliability & Variability
also see:
歴代parameter設定値に対する有用性
https://gyazo.com/0a59577b8c8afe6d1a98d4070357dd97
2019年9月、Data Stewardship Executive Policy Committee (DSEP)は2010us censusのデータを用いるDASのパラメタの最終決定を要求された。
DSEPは以下の仮定に基づいて決定
回答者のプライバシーを保護するというTitle 13 U.S.Cに基づく法的義務を遂行する程度にεを小さくすることが目標
hogehoge
グローバルεを6.0に設定
SSS2021-02 (Production Settings)
Empirical Study of Two Aspects of the Topdown Algorithm Output for Redistricting: Reliability & Variabilit
地理的グループの信頼できる特徴を得るためにdistinctの最低人口はどのくらい?
TDAのperson fileにε = 17.14を設定
450~499
ε = 10.3からε = 17.14に更新
SSS2021-01 (April 2021 Demonstration Data)
https://gyazo.com/07813b1dfa7323cbc41d1d654461b2a6
集計値ごとのメトリクス
地理的グループの信頼できる特徴を得るためにdistinctの最低人口はどのくらい?
TDAのperson fileにε = 17.14を設定
約600
https://gyazo.com/8dea1c32469813eda19d63717a575675
$ C_{SWA}(g)はus census 2010で使われたスワッピングアルゴリズムによるブロック内での人口
$ C_{TDA}(g)はus census 2020でのTDAアルゴリズムを用いたブロック内での人口
$ DR_gが0.005より小さいと$ C_{TDA}(g)の値はreliable characteristicと判断
https://gyazo.com/af84b062d2855354ca33f2a9a6305d2b
全217,749ブロックの$ C_{SWA}をサイズごとに並べたときに、$ DR_gが0.005より小さくなる割合がブロックグループの95%以上になるのは$ C_{SWA}が550以上、590以下になる時
なので600と設定。
ε = 4.0からε = 10.3に更新
https://gyazo.com/3f97bab3e9f21e00d5d50914aa27148e
2010とTDAを比較
TDAアルゴリズムを25回実行し3つの結果をサンプリング
CD(Congressional district)
OTHERNHP(Other non hispanic)
SSS2020-02 (2019)
Variability Assessment of Data Treated by the TopDown Algorithm for Redistricting
However, if the random noise is a negative integer whose absolute value is greater than the query’s answer using the 2010 CEF data, then our noised answer would be a negative noised answer, which is not feasible. Thus, action is needed. This is the purpose of component two (post-processing) of the TDA, to ensure that our “final noised answer” to the query is a nonnegative integer
ε = 4.0