「確率の感覚」について
人間の「確率の感覚」みたいなものは厄介で、人によっても状況によっても変動しまくる。
それをもとにしたリスク評価がバラバラなのは必然。
ちょっと連想したのが「ゲームの企画書」の不思議のダンジョンの回で、確率(乱数)の調整の話がとても興味深い。「主観確率」のむずかしさ。
「確率の感覚」は、要は0と1の間のグラデーションをどう捉えるかの心理量なので、確率だけでなく、割合に対する感覚も同じだし、たとえばM-1みたいに論理でイチゼロを決められないものを評価するときの「100点満点でいえば何点か」みたいなものも同じなのだろうな。
そしてこれは線形ではないし間隔尺度ですらなくせいぜい順序尺度という。95%と99%の違い(の感じ)は、54%と58%の違い(の感じ)とは異なるだろう。
リッカートスケールの話とかと本質的には同じなのかもしれない。
この確率なり割合なりの感覚は、なんらかの形で「学習」したものだろうから、人それぞれ少しずつ違うはず。そのへんが、こうした感覚をすり合わせることの難しさにつながっている気がする。
この「学習」も、データの主観的な記憶によるものだろうから、客観的な数量を反映するのには限界がある。感覚的にいう何%とかいうのは、数字を使ってはいるが、むしろ「言葉」に近いのだろうな。
なので、数学的に定義された確率なり割合の値と感覚的なそれとは、ときには微妙に、ときには大いにずれてしまい、バグってしまう。
これは量感覚の学習一般に帰着するのかな。そしてたぶん量感覚は「たくさん」とか「少し」とか、ファジィな「言葉」に離散化される。
「お前テストどれくらいできた?」「うーん、7割くらいかな」というときの「7割」というのは「副詞」なんですよね。
「授業時間外学習を週に何時間しましたか?」といって選ばせるのも同じ「副詞」なのかもしれない。
確率を感覚的に表現するときに使う数字は、そういう意味で「言葉」なのかなと。数学的な「計算結果」ではなく、「意味」である、というか。
「言葉」だというのは、たとえば統計的学習の言葉でいうと「分類」の問題だということ。
分類の解像度が上がると連続値に近づく。
そう考えると、量感覚の学習における学習データというのはどういうことになるのかな。意外と一筋縄でいかない話題のような気がしてきた。
というか、心理学方面の勉強をしたほうがよいのかもしれない。
あとこの話はフェルミ推定のような話にもつながっていくのかな。
こういう「程度」に関する感覚を、ある種の数量として人間がアウトプットするというのは、本来無理なことをなんとかやろうとしているのだろうな。
よくある「1を最低、10を最高として、満足度を10段階で答えてください」みたいなのって考えるほどに奇妙。
あらためて、上述の不思議のダンジョンの乱数調整の話、本当に面白くて、人間が「10%くらいの確率で起こる」と感じるイベントを設計するには実際にはどのような乱数調整をするか、みたいな話がたくさん出てくる。
『ここで面白いのが、例えば15%にしても19%にしても特に変化が起きていないように感じるのに、20%にした瞬間に「あ、出方が変わったぞ」となることがあるんですね。どうも人間の確率に対する感覚というのは、階段状に作られているように思えますね。』
『たぶん、大抵の人は10%という数字を、10回に1回起きることだと理解してしまうんです。でも、数学上の10%というのは、違うでしょう。例えば、5回目で出たあとに、何十回も出ない状態が続いて最後にドンドンドンと出てきたとしても、確率的には10%で正しいというのはあるじゃないですか。でも、人間の感覚は、それを10%とは受け入れがたいんですね。』
『ですから例えば、「5回目までで起こらない確率が半分」というくらいの感じで作ると、上手く10%に感じられたりするわけですよ。』
みたいな感じ。こういう話は個人的にむちゃくちゃ面白い。
他にも、たとえば命中率85%と90%の武器は、5%しか変わらないのにプレイヤーはすごく大きな差を感じることがあると。これは逆に「命中しない確率」を考えると、10%と15%になり、1.5倍もの差になり、人間「うまくいかなかった感じ」のほうが記憶に残りやすいからだろう、といった話も。面白すぎる。
『実際のところ、テストプレイを1000回単位でやらせてみると、ある1%を境にプレイヤーの「当たりやすい」「外れやすい」の評価が切り替わることはザラです』
『◯◯.◯%の確率の辺りに最適解があって、そこから少しでもズレたらプレイヤーから「多すぎる」「少なすぎる」と苦情が来る』
とかも。
『さくまあきらさんは、『桃鉄』を作る際に「野球の打率を参考にして、3割打者と2割7分の打者の差みたいな体感を参考に数値を入れている」とおっしゃられていたのですが』
みたいな話もあり、これはまさに「確率の感覚の学習」の話ですね。
また自分の仕事に引き寄せてしまうが、IRでも要するに間接評価というのはこうした問題をちゃんと捉えておかないといけないのだろうなと、こういうのを見ると思うのです。あ、直接評価も同じか。パフォーマンス評価であれば。
そういえばこれも以前書いた気がするけど、お笑い賞レースの「100点満点での採点」は、「割合の感覚」という意味では絶対評価だけど、よくある「トップを基準点にする」という感覚もあるので、「絶対評価的な相対評価」なんですよね。そしてそれが結局最も納得感の高い採点方法なのだろう。
どうしても相対評価になってしまう一方で、おそらく「90点」をつけるというのは、審査員の中の「ある一線」を超えたかどうか、というのがあると想像する。「95点」にもその境界がある気がする。
多くの場合、審査員ごとに分散が違うので、分散の大きい人の影響が出すぎるという問題は確かにあるけど、かといって票を投じる方式などになるとどうも物足りない。これは「絶対評価的な点数感」が見えないからだろうと思う。そういう意味で、絶対評価風味のある相対評価、が最も納得感が高いのだろう。
ただ絶対評価風味とはいえ、「100点」を実際に出すことにはまた特殊な意味が生まれるので、これまで100点は紳助の笑い飯に対するものしかないし、紳助にしか出せないものなのだろう(今後もきっと出ない)。
ファーストラウンドは100点満点の採点、勝者を「決める」ための最終決戦は投票式、というのがもう最適解だろうなと思う。賞レースは正直みんなこれでいいのではとも…
とまた話があちこちに行ってしまった… いずれにしても、確率や割合の主観的な感覚というのは興味深くてかつ実際的に厄介なものだなと。あらゆる行動は現実にそれに基づいて決められているのだろうし、それが複雑に渦巻いて世の中が動いている。
客観的な「エビデンス」と呼ばれているもののほとんどはこういうよくわからない曖昧で主観的なものの複合的なあらわれなのだろうな。われわれは何と対峙してあれこれを言っているのだろうか…
だからこそそこに統計学があるのだという言い方もできるのかもしれないけど。
2021/1/1-3のX(twitter)より
#雑記