多様性工学
https://gyazo.com/86304cb2a80e65371d594b2cd2b5d5f8
2021
ルーブル美術館を、その代表作であるモナリザ1枚だけで語るのは不可能である
「大多数の日本人は味噌汁を好む。だから味噌汁を売れば良い」は浅い議論
「味噌汁を好まない少数派の人々はどうなっているか?」と観察対象に接近するべき
「少数派の中にもメジャーな派閥があって、その特徴を調べればそこそこ有益な結論を出せるのではないか」と目星をつける
趣味嗜好の世界は多様であることが価値であり、「平均値のズレ」よりも「大集団から何が消えて、何が増えたか」で流行を語るほうが語るほうが結論に実りが多い
「多様性は正規分布を仮定してエントロピかなにかで測ればいいのではないか」という考えに飛びつきがちで、丁寧に見る強い動機が成立しない
世間では多様性といえばエコロジー分野の生物多様性か人間社会の少数派保護の文脈でのみ捉えられており、これら以外はむしろ多様性の分析は邪魔に扱っている(平均値などで考える)のが普通
本書では、多様性を「物事の多種性・取り揃えの広がりであり、物事の質や影響力を左右する重要事項」と捉えた上で。その目的を「多様性をコントロールする技法を集成すること」とした。 多様性は他者との違いがあって初めて議論ができる「関係」の情報 質:どのように違うか
量:どれだけ違うか
の両面が必要
どのような仕事でも、結局多様性に行き着く
「どこまで状況に対応し、どう成果物を取り揃えるか」に心を砕いている
多様性は「多様であるものが多様でない」という自己矛盾の傾向がある
ハリウッド映画ばかりが幅を利かせる
特定の歌手ばかりがヒットする
本書で想定されている読者の要望
まだ遭遇していない新種はどれほどいるのか知りたい
多様性の度合いを定量的に測りたい
多様性からメリットを引き出したい
多様性をコントロールしたい
多様な天災の中にも、非常にまれな天災現象についてリスク管理したい
(本や映画のように)同じものが2つあっても無意味と言える、個性に価値がある物事を分析したい
やたらと項目が多い高次元データを分析したい
不動産のようにやたらと項目が多い商品の中から、顧客にマッチするものを選びたい
集団全体の平均像よりも個々の差や派閥の様態を分析したい
自らの競争力を高めるやり方を知りたい
多様性は安全を毀損しないか、あるいは安全に貢献できるかを知りたい
? (個性|高次元データ|差分|多様性)を分析したい
目次
第1部 多様性工学の理論
第1章 多様性の意味と意義
1.1 多様性の効用一多彩なことはいいことだ
1.2 多様性の弊害
1.3 多様性の度合いを表す指標
1.4 「同じ」とは何か?
1.5 多様度は観点に依存する
第2章 多様性増減の原理と法則
2.1 多様性を生み出す原動力
2.2 ゆらぎが拡大される誘因
2.3 多様性を減らす原動力
2.4 多様性を保つ力
第3章 モデル化ー正規分布当てはめを超えて
3.4 その存在自体以外に存在証明がない存在
3.5 多様度の真値に迫る
3.6 多様性をとりこぼさない計測は難しい
3.7 無用な多様性と、それを捨てる能力
3.8 深層学習が多様性の見極めで人間を圧倒
3.11 巨大な図書館一希少例は希少なまま呼び出せ
第2部 多様性工学の用途
第4章 多様性の分析
4.1 分析技法の概況
4.2 標本全体についてデータの相関関係を調べる技法 4.3 標本をクラスタに分割する発想
4.4 高多様度大規模データの樹形図分析
第5章 多様性への戦略
5.4 取引相手の多様性
5.5 安全とセキュリティのための多様性
https://www.youtube.com/watch?v=C_kwQcKrA4Y
多様性をどう定量化するか?
指標はいろいろある
種類の数(レパートリ)
ものすごい量がある場合困る
ありとあらゆる造り酒屋を調査した結果、「無数です!」となる、比較しようがない
集団サイズ
日本酒市場のエントロピーは4.44なので22社ぐらいから選択していることになる
範囲(range)
理論的な妥当性がない
エントロピーの近似値になるので簡易に計算したい時には便利かも
でもエントロピー使えとなる
分散
標準偏差
変動係数(coefficient of variation)
ここから先の分析はかなり日本酒という領域への理解が必要だ(生産はどうなっているとか)
https://www.youtube.com/watch?v=axh2Ehc0T3s
https://www.youtube.com/watch?v=iHJmhUINE_I
データが2次元なら凸包の内側なら
外側は外す確率が高い
しかし凸包を拡げないデータに価値はあまりない
面白くないデータ
凸包を広げるデータがAIの性能を広げるから嬉しい
基素.icon われわれが極端な話や行動を面白がるのは違いが面白いからであって予想したいからではないな
次元の呪いによって外れ値があっても凸包はそんなに広がらない 低次元は満遍なくデータを揃えることができる
甘さと塩気
多次元データはデータを揃えられない
たかが7次元でも大小なら2^7
モニターに128種類試してもらう?そんなことできない!
GAFAは人のデータをとっている。これは超高次元データである
つまりGAFAは変なデータを集めたい
会員を増やさないとAIで勝負にならない
未知の少数派
弱点を見極めてビジネスを設計できるか
機械学習の急激な発展によって、「そんな珍しいデータ、少数派でしょ?」と捨てられていた
今は「賢い」AIを作るために価値がある
意識的に集めないと集まらない
パラ見した
小難しい数式はない
数式自体高々10本程度しか出てこない
図は結構ある
あとがき
1980年代に関数電卓が普及して標準偏差が一般の職場でも使われるようになった 同時期、パソコンの普及で手間のかかる順序づけ(4分位数、パーセンタイル)が可能になった
今使われているのは多面的な解釈ができる(疎な)複合データで、観察対象は同じ事の方が珍しい
動画、テキスト
ここまでせいぜい40年
多様性が減ることは種やそれに依存しているものには大打撃。分析だけではなく戦略を持って制御せよ
関連する?
主観的データを「客観的ではないからゴミだ」と捨てるのではなく、たくさん集めることによってそこから意味を引き出す
かつては「合計、平均、多数決」みたいに、しょぼい特徴量しか使ってなかったので主観データをたくさん集めても有用でなかった コンピュータの性能の向上と行列分解の研究の発展で、高次元の行列から意味を見出すことがやりやすくなったわけだ