順位は非線形な指標
順位という数は基本的に非線形な指標である。これが大きな影響を与えることがある。
順位だけでは1位と2位の差がどれだけあるか、2位と3位の差がどれだけあるか分からない。
順位は定量データ(比例尺度・間隔尺度)ではなく定性データ(順序尺度)である
数字を使うからといって定量データではない。データの性質
例えば実力が正規分布に従っているとする
上位の存在はとても貴重な状態
平均の周辺には人が密集しているので、平均の周辺では僅かな能力差で順位が大きく下がる。
順位の背後には個々の能力や特性が存在する。
もしそちらで測れるのであれば、順位よりも豊かな評価ができる。
各々を対戦させることにより、個々の大小しか分からない場合も多い
もし順位だけが与えられていて適切に評価するためには?
何かしらの仮定が必要
順位を線形と仮定して評価する
相加平均
1位と10位の差、10位と19位の差がイコールという仮定がある
2つの種目で10位+100位、55位+55位が同じ評価
$ (a + b) ÷ 2
順位を非線形と仮定して評価する
調和平均
超尖った人を評価する
1位と2位の差は2位とビリより大きいという仮定
2つの種目で10位+100位、18位+18位がほぼ同じ評価
$ (\frac{1}{a}+\frac{1}{b})÷2
順位は非線形であることが影響する例
マリオカート8以降、アイテムテーブルが順位ではなく1位からの距離で決まるようになった。
ただしマリカ8では完全に距離制だったせいで、2位でもサンダーが出ていた。
マリカ8DXでは距離制と順位制のハイブリットに。
これによって順位にも意味が出た。
前張りが多いと打開が強くなり、打開が多いと前張りが強くなる複数人相対的引っ張り合いのゲーム性に
距離制だけだと1位との相対しかなく、打開の人数や前張りの人数というのは関係なくなってしまう
コンドルセのパラドックスは、個々が提示する順位が非線形な重みを持っているために最適解を得られない。
どんな時でも民意を反映できる完璧な投票方法は存在しない
順位の背後にある個々の能力や特性を見るのが難しい(出力の分布が正規分布に従わずよく分からない)場合には、順位を参考にすることもある。
入力から得られた出力を順位で並び変えて選択(サンプリング)する
選択することにエネルギーが必要で、不足するくらいの量しか選択することができない状況を想定
大学名が分からなくてもWebテストをさせて、良かった順から採用していくみたいなイメージ
不確実性サンプリングでは確信度が低い順にランキングを付けてサンプリングする
もしくは不確実性が高い順
確信度の絶対的な値を使うのはいい方法ではない
多様性サンプリングでは活性度が低い順にニューロンのランキングを付けてサンプリングする
各ニューロンの活性度の順位 = 外れ値スコア
活性度は正規分布に従わないので、平均からの距離では外れ値を定義できない