2025.7.10 オーバーサンプリング
学習データの不均衡の補正を目的として行われる。
code:p1.py
from imblearn.over_sampling import RandomOverSampler
X = 1], 2, 3, 4, [5
y = 0, 0, 1, 1, 0
ros = RandomOverSampler()
X_res, y_res = ros.fit_resample(X, y)
print(X_res)
print(y_res)
元データは、
ラベル 0 のデータ 1, 2, 5 で 3件
ラベル 1 のデータ 3, 4 で2件
であった。これを
code:result.txt
1], 2, 3, 4, 5, [4
0, 0, 1, 1, 0, 1
のように、
ラベル 0 のデータ 1, 2, 5 で 3件
ラベル 1 のデータ 3, 4, 4 で3件
全てのラベルの件数を、最も多いラベルの件数に揃える。
そのさい、ランダムに選択したデータを複製することで件数を増やしている。