Kaggle - Instacart
instacart の振り返り。2回submitした。それだけだが。。
プロセス
特徴量作成
学習器のパラメータ設定
アンサンブル
どういう流れなのか
ユーザーが次にreorderする商品を当てる。
回答は、ユーザーIDと、reorderされそうな商品ID群。
簡単には、商品別、ユーザー別、時間帯別など、re_order率があるので、それをうまく組み合わせるのが、素朴な考え?
re_order率の分布が違う分け方を見つけるのが、特徴量探索の基本?
f1_scoreのoptimizationが何をやってるかをちゃんと把握しないと。
参考になるまとめ情報
マシンスペックが高くないと、みたいな部分があり、手が止まる。。 cloudでやらないとだめなのかな。。
過去にそのユーザーが買ったことがあるのを全部reorderとする、0.21
過去にそのユーザーが、再購入した商品全部とする、0.3
そのユーザーの前回の買い物時の商品そのままで、0.33
そのユーザーの前回の買い物商品で、再購入だったもので、0.33
最後の2つはあまり変わらない。前者はrecall優先、後者はprecision優先で、結果調和平均を取るF1としては同じくらいな感じ?
こういうのを、多段に積み重ねつつ(決定木)、適当なところで打ち切ったのを沢山つくり、そこから残差をどう学習するか?が、xgboost?? xgboostの説明 #わかってない https://gyazo.com/69b206368dba6c576d17536239b723fc