データリテラシーとは
データを読み書きする
データを収集、解釈、分析し、その分析から得られる洞察や情報を伝える能力のこと
結果を適切に解釈するには
グラフの読み解き能力
基本的に常識として持っている能力
グラフを観察していろいろな事実を見つける
対象に関する知識も必要
従業員数と売上の関係を観察する
https://gyazo.com/4789215899a9ca213e46ccf31d59dcaa => https://gyazo.com/79bb3540f9fe398a67c0fe11eb393e3c
データとは
データ
単体では単なる数値と文字列
解釈して初めて意味をもつ情報や知見として扱える
決して我々に都合のいい情報を提示してくれる道具ではない
データを使うと客観的な事実がわかるといったりもするが、実際は見せ方によって印象はいくらでも変わる
得られた知見に基づいて納得感のある主張ができるかどうかにかかっている。分析者による
データで騙す、騙される可能性があるためリテラシーが必要
時系列グラフ:左右で軸の起点を変えたもの。見せ方でグラフから得られる印象は異なる
https://gyazo.com/b00f68f56d5316cdaa63fd844157c712
分析
分析
事実と、なぜ発生したのか背景、原因、理由を洞察し、事実を集め、今は何をするべきか考えるのが真の意味での「分析」です。データの集計や統計手法の活用は、そのための手段に過ぎません。
データ分析の目的とスキル
目的に応じて必要なスキル、手段、アウトプットは異なる
→目的=得られた結果の使い道
ex.) 売上変化を検知して、下がってたら調査・対策を行う。検証結果を元にして企画を実施するか否かを判断、など
目的が定まってないと、活用面での価値はない
ex.) アラートが出ても対策しない(下がってるから頑張れとか激励する)。検証結果が外れたときでも、「とはいえやってみればいいじゃん」とか言い出す人達...
分析ロードマップ。データの観察はどのようなデータ種類でも、必要となる部分
https://gyazo.com/611f98c215e3d884e7e47ab8879dc8f0
なぜ分析が必要なのか
近年データの収集・整備環境が整ってきたという背景
生レベルのデータへのアクセスが簡単になってきた
判断するための材料が複雑になりすぎている時(複数のステークホルダに忖度する、合議的に決める場合)の一つの妥協案として
実態とあってないような判断を防ぐ、仮説の領域を出ていない不確実な部分を排除する(事実の確認)
判断軸を得るまでのプロセスを明確にする
グラフでデータを表現する
推移:時系列グラフ
関係:散布図
全体に対する割合(相対的割合):ツリーマップ、円グラフ
順位(大きさの比較):棒グラフ
差分(目標達成率):棒グラフ
分布:ヒストグラム 、箱ヒゲ図
場所:地図
目次:データリテラシーとはどのようなものか データを読み解くための知識
データの要約方法
統計量の定義を理解する
グラフの印象を変える
相関:擬似相関、因果
データの要約方法
最頻値と中央値と平均値の違い
貯蓄額を感覚として持っているから違和感に気づけるが、適切なドメイン知識を持たないで統計量を眺めると気づけないかもしれない
平均値:一般的な方法。全ての値を考慮できる。外れ値に弱く、偏った分布の時は適さない
中央値:前後に半分ずつ値がある外れ値に強い。一般的ではない。
最頻値:外れ値に強いが、データ数がそれなりにないと代表的かどうかが怪しくなる
→可能な限り代表値だけでなく分布もみる
https://gyazo.com/9e08d16f20f1c8771e67248ddf974e78
統計量の定義を理解する
https://gyazo.com/63787834b2917dae17cebccc9b25a151
集計値は定義を書かずに平易な説明へ翻訳することもよくある
例)購入数の平均値→1人当たりの購入数
平均値からは、一部たくさん購入する人がいるのか、購入数は全員同じくらいなのか、区別はつかない
下2つの平均値は同じ
1+0+8 / 3 = 3
https://gyazo.com/f97c00924aa55d666466543e4bded2b2
2+4+3 / 3 = 3
https://gyazo.com/52da02918d49ac0000afe146c7c9f8cf
グラフの印象を変える
https://gyazo.com/97f694c79817e36858bf1f113b073b66
相関:因果
相関、ある値が大きい(小さい)時もう一つの値が大きく(小さく)なるような関係のこと
因果:互いに原因→結果の関係となること
因果がある項目同士は相関があるが、相関がある項目同士に因果があるかどうかはわからない
https://gyazo.com/9795ac86175bcdbdeddb3627d557bf98
相関:擬似相関
項目同士に相関があっても、他の要因があるような状況のこと
https://gyazo.com/cd1c4d7e65a72d85dcbe27f47a284c74
正の相関がある場合の散布図
https://gyazo.com/786578b6e569400fa2d93d194765a0eb
参考
引用したスライド
身に付けたいスキル
データサイエンティストのスキルチェックリストより
データ理解やデータ可視化など
組織として必要な体制 CTO協会の出してるDXチェックリストより
データ可視化とリテラシー
意思決定者は、データの読み取り方や統計の基本的な知識について研修トレーニングを受けているか。
売上などの短期的数値ではなく、長期的な事業価値のための間接的指標(e.g.顧客リピート率や予測LTVなど)を主要なKPIとして設定しているか。
データから得られた推論や仮説が間違っている場合にどのようなデータによって検証可能かをもとにデータ収集や分析が行われているか。>
アンチパターン
要望ベースでデータの集計を繰り返し、雑多なレポーティング項目が棚卸しされていない。
サイト
「信頼できないデータ」をいかに可視化するか
東洋経済COVID-19ダッシュボードを製作した人が日々の更新やコンテンツで気にしたこと
データビジュアライゼーションは、決して「そこにあるデータを何でもかんでも機械的に可視化する」ことではない。データビジュアライゼーション作品を公開する際は、せめて「そのデータを公開したらどうなるか」という想像力は持っていたい。
原因と結果に関する記事
誤解を与える統計グラフの例示
擬似相関の例がたくさんみれるサイト
書籍
統計でウソをつく法(1968年)
戦略的データマネジメント 企業利益は真のデータ価値にあり
--- 以下 、メモ書き
what データとは、リテラシーとは
データリテラシー=データに関する読み書き能力のこと
literacy: the ability to read and write
データを収集、解釈、分析し、その分析から得られる洞察力や情報を伝える能力のこと
データを情報や知見を得るのに必要
データは数値だったり、意見だったりそれ単体で事実や情報を含んでいる
決して我々に都合のいい情報を提示してくれる道具ではない
往々にして加工して集計しないと分かりやすい情報(=知見にはならない
使い道を決めないと無駄になる
使われないデータはゴミと同じ
石油に例えられることがある
採掘して蓄積する(収集する必要)
精製する(加工が必要)
原料なので単体では使えない。用途に応じた設備が必要(使うときは目的が必要)
観測してデジタル化できるならどこにでもある、収集し得る
センサー、webサイトのログ、写真、
when いつ必要か
事実の確認をするとき
ユーザは増加傾向にあるか
効果の程度をみる
形容詞ではなく数値で確認
where どこで必要か
who 誰に必要か
データを眺める人
根拠のある判断をするために
集計作業をする人
間違ったデータを出さないように
強力な説得材料がほしい人
ストーリーを組み立てたり
why なぜ必要か
データの整備環境が整ってきた背景
判断するための材料が複雑になりすぎている時(複数のステークホルダに忖度する、合議的に決める場合)の一つの妥協案として用いる
実態とあってないような判断を防ぐ、仮説の領域を出ていない不確実な部分を排除する(事実の確認)
how どのようなものか
データを扱う=読み解いて利用する、書いてみて(集計とかして)目的にあった結果を得る
客観的な事実がわかるとかいったりもするが、実際は見せ方やストーリーで印象はいくらでも変わる
データで騙す、騙される可能性があるためリテラシーが必要
データの得意、不得意なことを把握して、表現する
データの種類
データの集計(要約)方法
比較軸とか
あっているかどうかを確かめるにはデータの質も判断する必要
定義通りに入っているか、間違った数値が入っていないか、異様に高い/低い数値はあるか
これらの間違いに気付くためには、データが生成される仕組みも知らなければならない
欠損があるのに気づいた時、どうやって正解にたどり着くか→担当者に聞くとか、資料探すとか
集計条件の熟知
比較する条件は妥当か(先月比、前年比)
間違ったサンプリングしていないか(施策をした/してないの分け方は実は異なる特徴を有するかもしれない)
集計指標は割合か、実数か
追加資料案
意思決定と効用
天気予報を聞いて降水確率から傘を持っていくか決める
持っていく→荷物になる。雨が降った時、傘を買わなくて済む
持っていかない→荷物軽い。雨が降った時、傘を買う
のような意思決定をするとき、(当然心理的負担もあるが)金銭的負担を考えると
40%で降るとして、その期待値は 0.4*500=200 となる。これが許容量を超えるかどうかで意思決定するとかがいいだろう
データの種類。順序尺度と名義尺度
相関、散布図いろいろ
可視化、見分けやすいとか、誤解を与えるグラフの追加
文献まわり
データサイエンティストのスキルチェックリスト
ビジネス理解
68 1 ビジネス観点のデータ理解 ★ データ理解 ビジネス観点で仮説を持ってデータをみることの重要性と、仮に仮説と異なる結果となった場合にも、それが重大な知見である可能性を理解している ○
69 2 ビジネス観点のデータ理解 ★★ データ理解 統計手法を用いる際の閾値の設定に対して、ビジネス観点で納得感のある調整ができる(年齢の刻み、商品単価、購入周期を考慮した量的変数のカテゴライズなど) *
70 3 ビジネス観点のデータ理解 ★★★ データ理解 分析プロセス全体を通して常時、ビジネス観点での妥当性をチェックし、データから得られた示唆が価値ある知見であるか都度判断できる
71 4 ビジネス観点のデータ理解 ★ 意味合いの抽出、洞察 分析結果を元に、起きている事象の背景や意味合い(真実)を見ぬくことができる *
72 5 ビジネス観点のデータ理解 ★★ 意味合いの抽出、洞察 分析結果を元に、特異点、相違性、傾向性、関連性を見出した上で、ビジネス上の意味を捉えるためにドメイン知識を持つ人に適切な質問を投げかけられる *
73 6 ビジネス観点のデータ理解 ★★ 意味合いの抽出、洞察 分析結果を元に、意味合いの明確化に向けた分析の深掘り、データ見直しの方向性を設計できる
データ取り扱い関連のスキル
データ可視化とか読み解き周りのスキル。50以上あるが、表現と読み解き関連について一部抜粋
119 18 データ可視化 ★ 表現・実装技法 不必要な誇張をしないための軸表現の基礎を理解できている(コラムチャートのY軸の基準点は「0」からを原則とし軸を切らないなど) ◯
120 19 データ可視化 ★ 表現・実装技法 強調表現がもたらす効果と、明らかに不適切な強調表現を理解している(計量データに対しては位置やサイズ表現が色表現よりも効果的など) ◯
121 20 データ可視化 ★ 表現・実装技法 1~3次元の比較において目的(比較、構成、分布、変化など)に応じ、BIツール、スプレッドシートなどを用いて図表化できる ◯
129 28 データ可視化 ★★ 表現・実装技法 適切な情報(意味)を押さえた上で、デザイン性を高めるための要件提示ができる *
130 29 データ可視化 ★★ 表現・実装技法 ドメイン知識とビジネス背景をふまえ、適切な情報項目を参照し、利用者の使い勝手を考慮した可視化したダッシュボードあるいは可視化ツールを設計できる * *
133 32 データ可視化 ★ 意味抽出 データの性質を理解するために、データを可視化し眺めて考えることの重要性を理解している * ◯
135 34 データ可視化 ★ 意味抽出 データの可視化における基本的な視点を挙げることができる(特異点、相違性、傾向性、関連性を見出すなど)
145 2 データの理解・検証 ★★ 統計情報への正しい理解 積極的に統計情報を収集しているとともに、表現に惑わされず数字を正当に評価できる(原点が0ではないグラフ、不要な3D化、不要な2軸化、目盛りの未記載など)
153 10 データの理解・検証 ★ 俯瞰・メタ思考 データが生み出された背景を考え、鵜呑みにはしないことの重要性を理解している *
158 15 データの理解・検証 ★ データ理解 何のために集計しているか、どのような知見を得たいのか、目的に即して集計できる * ◯
168 2 意味合いの抽出、洞察 ★ 洞察 想定に影響されず、分析結果の数値を客観的に解釈できる *
一般社団法人データサイエンティスト協会 スキルチェックリストより引用
データ可視化とリテラシー
意思決定者は、データの読み取り方や統計の基本的な知識について研修トレーニングを受けているか。
売上などの短期的数値ではなく、長期的な事業価値のための間接的指標(e.g.顧客リピート率や予測LTVなど)を主要なKPIとして設定しているか。
データから得られた推論や仮説が間違っている場合にどのようなデータによって検証可能かをもとにデータ収集や分析が行われているか。
アンチパターン
要望ベースでデータの集計を繰り返し、雑多なレポーティング項目が棚卸しされていない。
レポートを作る人だけでなく、使う側の解釈力も必要
検証方法はステークホルダーの要望や、企画の特徴に支配されがちな部分。場当たり的になりやすい
組織的として確認する数値とその意味、使い道がわかっている状態が理想
データをどこに使うかを決める
outputが誰になんの価値を与えるかが重要らしい
データ戦略の7要素
1. Input Data - モデルに投入するデータ項目
2. Stored Data - 過去のデータとして蓄積すべきデータ項目
3. Algorithm - 解析アルゴリズム(AIモデル)
4. Output Data - 分析結果としてフィードバックすべきデータ項目
5. User Interface - 分析結果を表示するインターフェース
6. User - 分析結果を利用するユーザー
7. Benefit - ユーザーが分析結果を利用することによって得る便益
outputとは解析結果が出力されてから、誰が結果を解釈して、どのように行動を起こすのか
といった流れ4.~7.のこと
そこから逆算的にinputデータと目的に応じた蓄積方法が決まり、outputのための技術(手段)、実際に見るときのinterface(形式や頻度)が検討される
outputからおこる行動、ここではbenefit?がないとただの処理装置になる。例えば東京アラート
tableauがコロナウイルス関連の可視化について提言した記事
ビジュアライズは情報を伝える手段として強力だが、誤解を招いたり、誤った情報を伝えたり、最悪の場合はパニックを引き起こしたりすることもありえる
死亡率の計算は正確な分母でない限りは困難なものである
最後の文章がなかなか これらのデータセットはtwitterで見せびらかすためのものではない
...Epidemic data isn’t a dataset to play with just to have something to show off on Twitter.
統計でウソをつく法 1968年
戦略的データマネジメント 企業利益は真のデータ価値にあり
東洋経済COVID-19ダッシュボード製作者が気にしたこと
原因と結果に関する記事
誤解を与える統計グラフの例示
擬似相関のサイト
blog データ教育に熱心な会社のCEO
ニューヨークタイムズのデータトレーニング
日本語もある
データの客観性について統計科学的側面から端的に述べている
データ視覚化のデザイン
data fluencyという言葉もあるらしい