多様性工学
https://gyazo.com/86304cb2a80e65371d594b2cd2b5d5f8
中田亨
2021
日科技連出版社
https://www.juse-p.co.jp/products/view/852 の試し読み
ルーブル美術館を、その代表作であるモナリザ1枚だけで語るのは不可能である
平均値を使うと誤解を生むケース
「大多数の日本人は味噌汁を好む。だから味噌汁を売れば良い」は浅い議論
「味噌汁を好まない少数派の人々はどうなっているか?」と観察対象に接近するべき
「少数派の中にもメジャーな派閥があって、その特徴を調べればそこそこ有益な結論を出せるのではないか」と目星をつける
趣味嗜好の世界は多様であることが価値であり、「平均値のズレ」よりも「大集団から何が消えて、何が増えたか」で流行を語るほうが語るほうが結論に実りが多い
娯楽は他と違うからこそ価値がある
平均より外れ値が有益
「多様性は正規分布を仮定してエントロピかなにかで測ればいいのではないか」という考えに飛びつきがちで、丁寧に見る強い動機が成立しない
世間では多様性といえばエコロジー分野の生物多様性か人間社会の少数派保護の文脈でのみ捉えられており、これら以外はむしろ多様性の分析は邪魔に扱っている(平均値などで考える)のが普通
本書では、多様性を「物事の多種性・取り揃えの広がりであり、物事の質や影響力を左右する重要事項」と捉えた上で。その目的を「多様性をコントロールする技法を集成すること」とした。
多様性は他者との違いがあって初めて議論ができる「関係」の情報
質:どのように違うか
量:どれだけ違うか
の両面が必要
どのような仕事でも、結局多様性に行き着く
「どこまで状況に対応し、どう成果物を取り揃えるか」に心を砕いている
多様性は「多様であるものが多様でない」という自己矛盾の傾向がある
ハリウッド映画ばかりが幅を利かせる
特定の歌手ばかりがヒットする
1つのルールにみんなが最適化したら多様性が減るということじゃないの?基素.icon
本書で想定されている読者の要望
まだ遭遇していない新種はどれほどいるのか知りたい
多様性の度合いを定量的に測りたい
多様性からメリットを引き出したい
多様性をコントロールしたい
多様な天災の中にも、非常にまれな天災現象についてリスク管理したい
(本や映画のように)同じものが2つあっても無意味と言える、個性に価値がある物事を分析したい
やたらと項目が多い高次元データを分析したい
不動産のようにやたらと項目が多い商品の中から、顧客にマッチするものを選びたい
集団全体の平均像よりも個々の差や派閥の様態を分析したい
自らの競争力を高めるやり方を知りたい
多様性は安全を毀損しないか、あるいは安全に貢献できるかを知りたい
? (個性|高次元データ|差分|多様性)を分析したい
目次
第1部 多様性工学の理論
第1章 多様性の意味と意義
1.1 多様性の効用一多彩なことはいいことだ
1.2 多様性の弊害
1.3 多様性の度合いを表す指標
1.4 「同じ」とは何か?
似てる→違いは?
1.5 多様度は観点に依存する
第2章 多様性増減の原理と法則
2.1 多様性を生み出す原動力
2.2 ゆらぎが拡大される誘因
2.3 多様性を減らす原動力
2.4 多様性を保つ力
第3章 モデル化ー正規分布当てはめを超えて
3.1 正規分布は特別な地位を占める
3.2 ブラック・スワンと街灯効果
3.3 平均を気にしないという新発想
3.4 その存在自体以外に存在証明がない存在
3.5 多様度の真値に迫る
3.6 多様性をとりこぼさない計測は難しい
3.7 無用な多様性と、それを捨てる能力
3.8 深層学習が多様性の見極めで人間を圧倒
Deep learning
3.9 解の個数の爆発とスパースデータの台頭
3.10 名義尺度が世の中を動かす
3.11 巨大な図書館一希少例は希少なまま呼び出せ
第2部 多様性工学の用途
第4章 多様性の分析
4.1 分析技法の概況
4.2 標本全体についてデータの相関関係を調べる技法
4.3 標本をクラスタに分割する発想
4.4 高多様度大規模データの樹形図分析
第5章 多様性への戦略
5.1 品質管理
5.2 販売戦略
5.3 ポジショニング戦略
5.4 取引相手の多様性
5.5 安全とセキュリティのための多様性
https://www.youtube.com/watch?v=C_kwQcKrA4Y
多様性をどう定量化するか?
指標はいろいろある
種類の数(レパートリ)
ものすごい量がある場合困る
ありとあらゆる造り酒屋を調査した結果、「無数です!」となる、比較しようがない
集団サイズ
エントロピー
日本酒市場のエントロピーは4.44なので22社ぐらいから選択していることになる
コルモゴロフ複雑性
範囲(range)
四分位数
ジニ係数
シンプソンの多様度指数
理論的な妥当性がない
エントロピーの近似値になるので簡易に計算したい時には便利かも
でもエントロピー使えとなる
分散
標準偏差
変動係数(coefficient of variation)
ここから先の分析はかなり日本酒という領域への理解が必要だ(生産はどうなっているとか)
https://www.youtube.com/watch?v=axh2Ehc0T3s
https://www.youtube.com/watch?v=iHJmhUINE_I
AIの弱点は外挿
データが2次元なら凸包の内側なら
外側は外す確率が高い
しかし凸包を拡げないデータに価値はあまりない
面白くないデータ
凸包を広げるデータがAIの性能を広げるから嬉しい
基素.icon われわれが極端な話や行動を面白がるのは違いが面白いからであって予想したいからではないな
次元の呪いによって外れ値があっても凸包はそんなに広がらない
低次元は満遍なくデータを揃えることができる
甘さと塩気
多次元データはデータを揃えられない
たかが7次元でも大小なら2^7
モニターに128種類試してもらう?そんなことできない!
GAFAは人のデータをとっている。これは超高次元データである
つまりGAFAは変なデータを集めたい
会員を増やさないとAIで勝負にならない
未知の少数派
弱点を先に埋めた方が勝ち
弱点を見極めてビジネスを設計できるか
機械学習の急激な発展によって、「そんな珍しいデータ、少数派でしょ?」と捨てられていた
今は「賢い」AIを作るために価値がある
意識的に集めないと集まらない
高次元科学への誘い:Hiroshi Maruyama's Blog - CNET Japan by 丸山 宏
/villagepump/2021/10/19#616e7976a336820000270808
パラ見した
小難しい数式はない
数式自体高々10本程度しか出てこない
図は結構ある
あとがき
王道が「平均と標準偏差」から「ビッグデータと多様性活用」に変わりつつある
1980年代に関数電卓が普及して標準偏差が一般の職場でも使われるようになった
同時期、パソコンの普及で手間のかかる順序づけ(4分位数、パーセンタイル)が可能になった
今使われているのは多面的な解釈ができる(疎な)複合データで、観察対象は同じ事の方が珍しい
動画、テキスト
ここまでせいぜい40年
多様性が減ることは種やそれに依存しているものには大打撃。分析だけではなく戦略を持って制御せよ
関連する?
主観的データを「客観的ではないからゴミだ」と捨てるのではなく、たくさん集めることによってそこから意味を引き出す
かつては「合計、平均、多数決」みたいに、しょぼい特徴量しか使ってなかったので主観データをたくさん集めても有用でなかった
コンピュータの性能の向上と行列分解の研究の発展で、高次元の行列から意味を見出すことがやりやすくなったわけだ
/nishio/Birdwatch