連検定
run test
データがランダムであるかどうかを検定する
$ H_0: データ系列はランダムである
$ H_1: データに何らかの規則性がある
判定
連の個数が少なすぎたり多すぎたりした時に$ H_0を棄却する 文字$ a,bの個数をそれぞれ$ n_1,n_2
文字の総数を$ n=n_1+n_2
連の総数を$ r
確率変数$ Rの実現値
$ nがある程度(20とか)大きければ、$ Rの期待値と分散を以下のように近似できる
$ E(R)\approx1+\frac{2n_1n_2}{n}
$ \muとおく
$ V(R)=\frac{2n_1n_2(2n_1n_2-n)}{n^2(n-1)}
$ \sigma^2とおく
$ u_0=\frac{r-\mu}{\sigma}とおき、$ |u_0|\ge z(\frac{\alpha}{2})なら$ H_0を棄却
$ z(\alpha)は正規分布$ N(0,1)の上側$ \alpha点