層化無作為抽出
GPT5.icon
短く言うと、「層化(stratification)」して各層の中でランダムに抽出・割付けする手法のことです。正式な用語は文脈により「層化無作為抽出(stratified random sampling)」や「層別無作為化(stratified randomization)」など。 何をする?
1. 層化無作為抽出(統計調査)
母集団を年齢・地域・性別などで層に分け、各層内で無作為抽出。
→ 小さな層も確実に含めつつ、推定の分散を下げる。
(重み付き推定:各層の割合で平均を合成)
2. 層別無作為化(臨床試験)
予後因子(年齢群、施設など)で層を作り、層ごとに治療群へ無作為割付。
→ 群間バランスを改善。しばしばブロックランダム化と併用。
3. 層化サンプリング(モンテカルロ)
積分領域を小区画(層)に分け、各層から無作為サンプル。
→ ばらつき(分散)を下げる分散削減法。
4. 層化交差検証(機械学習)
クラス比を各foldで保つように分割(Stratified K-Fold)。
→ 不均衡データでの評価を安定化。
いつ使う?
重要だが少数のサブグループを確実に含めたい
推定の精度(分散)を下げたい
クラス不均衡を保った評価をしたい
介入群間の背景差を抑えたい(試験)
注意点
過度な層の細分化は各層のサンプル不足を招く
抽出確率が層で異なる場合、重み付けが必要
試験では層を解析モデルでも共変量調整するのが通例