インクルーシブデータ組み立てマニュアル
データ組み立てとは?
インクルーシブチャートは、日本社会が100人の集団だったらというコンセプトの下、多様なデータを100人のペルソナ(≒仮想人物)に代表させるチャート。差別感情なく社会の多様性を理解することを目指す
データ収集→開発の間に、データを100人分にうまく圧縮し、ペルソナに割り当てる作業が発生する。このマニュアルはその方法について記述する
テストデータの作成記録(2022年1月~)
方針
なるべく現実のデータの分布にテストデータを合わせる
ユーザーが親しみやすく感じるために、必要な部分はデフォルメする
人口
100人にする
年齢、性別
2020年「国勢調査」に準拠
何歳(1歳刻み)の人が日本に何人いるかは男女別に分かる
それを100人に圧縮すればいいや……と思いきや、そうすると若者が1人もいないデータになる
例)1歳の男性は0.35%しかいない。少子化……
→5歳刻みにし、データを圧縮
例)0-4歳の階級には2人の割り当てがある、その中で割合が多い年齢にその2人を割り合てる(→結局0歳児や1歳児はいない(進む少子化……)、ここは要検討)
なるほど!yuiseki.icon
賃金
日本在住の人の経済状態を網羅したデータがないのでは
世帯単位のデータだと個人の生活がわかりづらい
実はかなり大きな課題かと思う
とりあえずサンプルということで、「労働力調査」から男女別の就労者数を引いてきて各ペルソナに割り当てる。働いている人(一定の条件を満たす人のみが調査対象だが)の年齢階級別・男女別の平均賃金は「賃金構造基本統計調査」で出されているので、それを反映して賃金を設定
名前
明治安田生命の名前ランキングに準拠
親しみやすさのためには、それっぽいことが必要
ペルソナの生年近くでよくあった名前を、重複のないように割り当て
居住地
2020年「国勢調査」に準拠
普通に人口比で割り当てると人口の少ない県のペルソナが0に……
まず47都道府県すべてに在住者がいるように設定。残りの53枠を人口の多い都道府県に人口比で割り振る
なるほど…yuiseki.icon
生活満足度
2020年「満足度・生活の質に関する調査」に関する第1次報告書に準拠
まず乱数を発生させる(0~10の整数)
年齢と対応させる
年齢階級別の生活満足度の平均値が男女別に出ているので、それに合うようにデータをいじる
※高齢者のほうが、女性のほうが生活満足度が高い
データ全体の平均にも合致するようにする(標準偏差は見当たらず、要検討)
年収と対応させる
同じ作業をくり返し、年齢との対応を失わないように注意する