Kaggle - Instacart

instacart の振り返り。２回submitした。それだけだが。。

R がほとんど。これに、python 版を追加していく。

プロセス

特徴量作成

学習器のパラメータ設定

アンサンブル

どういう流れなのか

ユーザーが次にreorderする商品を当てる。

回答は、ユーザーIDと、reorderされそうな商品ID群。

基本的には、xgbboost, lightgbmなどで、ユーザー、商品の特徴量を元に、過去に買われたこの商品はreorderされるなど、、、

簡単には、商品別、ユーザー別、時間帯別など、re_order率があるので、それをうまく組み合わせるのが、素朴な考え？

re_order率の分布が違う分け方を見つけるのが、特徴量探索の基本？

f1 scoreのシミュレーションでみたように、購入時の商品数予測もf1スコア観点では大事になりそう？

f1_scoreのoptimizationが何をやってるかをちゃんと把握しないと。

参考になるまとめ情報

マシンスペックが高くないと、みたいな部分があり、手が止まる。。 cloudでやらないとだめなのかな。。

過去にそのユーザーが買ったことがあるのを全部reorderとする、0.21

過去にそのユーザーが、再購入した商品全部とする、0.3

そのユーザーの前回の買い物時の商品そのままで、0.33

そのユーザーの前回の買い物商品で、再購入だったもので、0.33

最後の２つはあまり変わらない。前者はrecall優先、後者はprecision優先で、結果調和平均を取るF1としては同じくらいな感じ？

こういうのを、多段に積み重ねつつ(決定木)、適当なところで打ち切ったのを沢山つくり、そこから残差をどう学習するか？が、xgboost?? xgboostの説明 #わかってない

https://gyazo.com/69b206368dba6c576d17536239b723fc