Bootstraping
統計的推定では、通常、真の分布についてはある分布を仮定して、その分布のパラメータの推定をする。
しかし、その仮定が適切だと思えない場合にどうするか? 平均値は良いとしても分散は正規分布の仮定は適切でないのではないか?など
標本が与えられた際に、その標本から、考えた分布のパラメータを推定するのではなく、
その標本から、復元抽出で同じサンプルサイズ?の標本を作り出す、沢山作る。(resampling) そうすると、推定するための統計量が1つではなく、(サンプルが?) たくさん得られる。
推定するための統計量の分布が得られる。
その分布はどうなる?
このたくさんの統計量の分布って、その統計量の母集団分布とほぼ同じと考えていいよね!だってどうせもっと実験してデータをたくさん取ったところで、似たような値のデータが増えるだけだからね!!
通常の、標本統計量から推定する分布より、、
パラメトリックブートストラップ
これは、サンプルから得た推定統計量を考えてるモデルの真のパラメータとして、そのモデルから乱数でサンプルを沢山作る。
おのおののサンプルから統計量を得て、その統計量の分布が得られる。
分布を仮定しなおしてる?
以下は、また書き直す-------
通常は、正規分布が仮定できるなら、
標本平均から母平均を推定するためには t分布. 標本分散から母分散を推定するためにはカイ二乗分布でいいけど、
それができない場合などで、サンプルから、
bootstrapをつかえば、その推定量のサンプルからの推定値の分布が手に入る。
手元にあるサンプルを、サンプルサイズで復元抽出して取り出して、統計量を計算。これを繰り返す。200~1000くらい?
私が見かけた具体的なケースは、
p値の分布を調べてる. 2標本の平均値の差(母集団に正規分布を想定できない場合) 相関係数の分布, これはbootstrapでなくても良いかもだけど。 ピアソンの相関係数は、独立の仮定でのt値は $ t = \frac{r\sqrt{n-2}}{\sqrt{1 - r^2}}
上記式は、r=0.5, n=11で、 pt(sqrt(3), 10) は、 0.94だった。標本数11くらいだとr=0.5は欲しい
ブートストラップでは再標本化により、興味のある統計量のバラツキを推定することができる。
得られたサンプルからの統計量と真の値との差、バイアスを測定することはできないけど、確度は得られるというイメージでよいかな....
https://gyazo.com/90cabd005a270328964e312196cf2a06
分散の推定に役立つのは、多少、、、役に立つきはしてきた。