RTAカテゴリの乱数要素の比較に関する検討
RTAにはいわゆる「乱数要素が強い」カテゴリというのが多数ありますが、その「乱数要素の強さ」を比較するための方法に関するメモです(特に具体的なカテゴリに関する比較などはまだしていません)。
乱数といっても様々なものがありますが、本記事で注目するのは「結果的にどのくらいタイムがばらつくか」という点です。
そのため、道中様々な選択肢が登場しても「最善の選択肢を選べばタイムがほぼ変わらない」場合は乱数要素が少ないとして扱います。また、基本的にはそのカテゴリに強い走者がいて、その人のタイムについて計算していると思ってください。
/icons/-.icon
分散と標準偏差
(この節は一般的な統計の話なので、ご存じの方は飛ばしてください)
一般的にデータのばらつきを表す指標としては分散と標準偏差が使われることが多く、これを利用することを考えます。
例えば同じカテゴリを複数回走ったとき、記録が以下のようになったとします。
table:result
タイム 偏差(平均値との差)
1走目 24分 -1分
2走目 22分 -3分
3走目 27分 +2分
4走目 24分 -1分
5走目 28分 +3分
平均値が $ (24 + 22 + 27 + 24 + 28) \div 5 = 25より 25分 なので、そこからの差(偏差)を右の列に書いています。
ここから次のように分散と標準偏差が計算できます。
分散は「偏差の2乗を平均したもの」です。つまり$ \left\{(-1)^2 + (-3)^2 + 2^2 + (-1)^2 + 3^2 \right\} \div 5 = 4.8が分散です
標準偏差は「分散の平方根」、つまり$ \sqrt{4.8} = 2.19 \dotsが標準偏差となります
※上の例だと本来は不偏分散を計算したほうがいいかもしれませんが、本題ではないのでこの件については省略します
上で計算した標準偏差こそが、データのばらつきを表す指標として使われます。この走者はこのカテゴリを走る際に ±2.19分 程度のばらつきが出るのが普通だ、と捉えられます。
なぜ標準偏差を計算するのにわざわざ平方根を使うのかというと、それは単位を合わせるためです。分散では求める途中で2乗を計算しているため、単位も 分² になります。これだと直感的でないため、単位を 分 に合わせるために平方根を取ったのが「標準偏差」ということになります。
/icons/-.icon
複数カテゴリの比較
特定のカテゴリを特定の走者が走った際のタイムのばらつきについては、標準偏差を利用すれば済みますが、複数カテゴリで比較する場合はそもそも平均タイムが大きく異なる場合があります。
例えば、以下のような状況があった場合に、どちらのほうが乱数要素が強そうでしょうか?
table:multiple_categories
平均タイム 標準偏差
カテゴリA 25分 1分
カテゴリB 64分 2分
いくつか考え方はあるかもしれませんが、平均タイムが異なるカテゴリを比較したいので「一定時間あたりのタイムのばらつき」のような概念を考えるのが自然ではないかと思います。
上の問題を考えるために、いわゆる「10周RTA」を考えてみます。
10周RTAの標準偏差
上の「カテゴリA」を10周連続で走るRTAがあったとします。この場合、(特に疲れたりはしないと仮定すると)10周RTA全体での平均タイムは10倍の250分になると予想されます。それでは、全体での標準偏差も、10分になるのでしょうか?
そんなことはありません。実は、ばらつきに関して「標準偏差は単純に足し算できないが、分散は足し算できる」ということが知られています(分散の加法性)。
そのため、標準偏差に関して「1分 × 10 = 10分」という計算は意味がないですが、分散に直してからならば10倍することができます。正しい計算は
1周の標準偏差が1分なので、分散はその2乗の 1分²
10周RTA全体での分散は、その10倍の 10分²
10周RTA全体での標準偏差は、分散の平方根なので$ \sqrt{10} = 3.16 \dots分
となります。
※ただし上記の「加法性」が成り立つのは、個々の試行が統計的に「独立」な場合に限ります。10周RTAでいえば各周回のタイムが他の周回のタイムには影響しないということです。実際にはその日の体調や記録狙いとしての戦略など、10周全体を通して影響を与える要素があるため、厳密な意味での加法性は成り立ちません。
結局、全体での標準偏差は 3.16分 程度になるわけです。なぜ10分より小さくなるかというと、「10回通して上振れを引き続けたりすることはあまりないから」というのが直感的な理由といえるでしょう。10周同じカテゴリを走った場合、ある程度個々のタイムのばらつきは相殺する傾向があり、単純な10倍よりばらつきは小さくなります。
上記を一般化すると、「N周RTAについて、平均タイムは1周のN倍、標準偏差は1周の√N倍になる」といえます。
一定時間あたりを考える
上のことから、「一定時間あたりのタイムの標準偏差」を考える指針が得られます。
カテゴリAは平均25分間あるわけですが、このチャートを25分割してそれぞれ1分ごとの区間にしたと仮定します。その中には乱数要素の強い区間も弱い区間もあると思いますが、それらを全て平均化した指標を考えたいわけです。
上のN周RTAとの類推から、
25分全体の標準偏差は、それぞれの区間の標準偏差の √25 = 5 倍
と考えられます。逆にいうと、
それぞれの区間の標準偏差は全体の標準偏差の 1/5 (つまり 1分 ÷ 5 = 0.2分)
であると言えます。この 0.2分 を「1分あたりのタイムの標準偏差」として扱うのは不自然ではないと思います。
そこで、上記の流れで求められる値を基準として採用してみます。一般化すると、
平均タイムが$ mで標準偏差が$ sのとき、$ s \div \sqrt{m}を乱数要素の強さの指標とする
となります。これに従って2つのカテゴリを比較してみると下の表のようになるので、カテゴリBのほうが乱数要素が強いといえそうです。
table:multiple_categories2
平均タイム m 標準偏差 s s ÷ √m
カテゴリA 25分 1分 0.2
カテゴリB 64分 2分 0.25
/icons/-.icon
よくわからない点
上の計算自体には不満はないのですが、一つよくわからない点があり、それは単位の問題です。表中では単位を省略したのですが、実際にカテゴリAについてこの指標を単位つきで計算すると
$ 1 \; \mathrm{min} \div \sqrt{25 \; \mathrm{min}} = 1 \; \mathrm{min} \div 5 \; \sqrt{\mathrm{min}} = 0.2 \; \sqrt{\mathrm{min}}
となって、単位にルートが残ります。単位の累乗部分が整数にならないことはあり得るようで、この場合も$ 0.2 \; \mathrm{min}^{1/2}と表記すれば問題ないらしいのですが、結局値がどの程度の大きさなのかこの表記からはよくわかりませんし、2乗して$ 0.04 \; \mathrm{min}としても余計直感的な量ではなくなるように思います。一応、上の 0.2 という数は1分あたりのばらつきがその時間(1分)の0.2倍程度、つまり12秒であることを指していると解釈できます。
(追記)いや、2乗したほうの「0.04分」というのは「平均タイム = 標準偏差」が成立する点としての意味があるのかな……? カテゴリAを「0.04分あたり」で見たとき、標準偏差も「0.04分」になります。結局このカテゴリをたくさんの区間に切り刻んでいったとき、「区間タイムとその標準偏差が一致するほど運ゲーになる」と言えるのがどの程度の時間スケールなのか、ということを表していると解釈できるかもしれません。
また、ここでの議論はそれほど突飛ではないと思うのですが、「標準偏差 ÷ 平均値の平方根」やその2乗の「分散 ÷ 平均値」という指標についての情報があまり見つからないので、なぜだろうと疑問には思っています。今回の「タイム」のようにばらつきが出る変数自体で正規化したい状況がまれだということなのだろうか……?
/icons/-.icon
追記(2026/4/11)
XI(sai) 関連 Discord サーバーのほうで議論いただき再度検討しました。
もちろん上記の計算が成立するためには各種の前提条件が必要ですが、計算自体に大きな問題はないと思われます。ただ「1分あたりの標準偏差」という概念を持ち出している点はやや微妙で、「1分あたり」という言葉を使うなら加法性が成立する分散に対して使うのが理論的にはより良いだろうという気がしています。
結局のところ、「1分あたりの分散」が$ s^2 \div mで計算でき(この場合単位は分になる)、最終的に指標として用いるために平方根を取っているせいで単位にもルートがついているだけ、と考えたほうが自然と思われます。
もし一定の時間(例えば10分)を基準に比較する場合は、「1分あたりの分散」にその一定時間を掛けたものが分散(単位: 分^2)と見積れるので、その平方根を取れば基準を一定時間にそろえたものでのばらつき(単位: 分)が計算できます。