039. カレーちゃんのコードレビュー
2018年06月22日 23時00開始
kerneler.icon質問や感想は以下のマシュマロよりください
いただいた質問はや感想は、放送で紹介します
kerneler.iconお題
このポッドキャストでは、Kaggleを中心としたデータサイエンスに関連する情報を配信していきます。
雑談
申し込み人数が約200
毎回素晴らしい発表が多いので、今回も期待している
Windows Insiderで最新にしないといけないので、ラップトップPCを脱デュアルブート、Windows一本化してみている
Dockerは動くようになったけど、まだiptable系が上手く設定できていなく、Docker内部からインターネットにアクセスできない
そのため、まだWSL2の恩恵を受けられていない
Signateあやめ
https://gyazo.com/4efd4a685bb40157467f31bf5380e213
頑張って96.0だったregonn.icon
評価が正答率なので、一個の正解の影響が大きい
スタッキングのノートはSignateのフォーラムで公開した
'num_leaves': trial.suggest_int('num_leaves', 5, 100),
'learning_rate': trial.suggest_loguniform('learning_rate', 1e-8, 1.0),
あたりはoptunaでは最適化しないほうが良さそう
max_depth
alpha
beta
col_tree
2層目
XGBoostやLightGBMだと、表現力がありすぎるため、過学習になってしまうかも
リッジ回帰がオススメ
何か変なことしてないか見てもらいたい
やってる途中で飯田産業コンペのコードの誤りとか見つけて、それなりに収穫はあった
https://gyazo.com/fd8050f76e78d246e78799feed46ea05
経緯としては、
ネタ元は某外国のコミュニティ
Kaggleのルール上では「コードとデータ」のプライベートシェアリングが禁止されているが、アイデアも当然含まれていると考えている日本の方々がディスカッション上で確認を行った。
今後、ルールが変更されることを期待したい。
https://gyazo.com/8c841c08649c2119595dc1d4b25cbd34
EDA、ドメイン知識をつけるなど色々あるが、ディスカッションからアイディアをもらっていくのが良さそう
最近は多くの有効な情報がディスカッションで共有されるので、ディスカッションをおってアイデアをもらうことは本当に有効。
https://gyazo.com/2f332267e1b7fb327990145dab50a4f3
網羅的に書いてある本とし、
が紹介されることが多いと思います。
https://gyazo.com/5233ba63b48d918c3a2d009b6590febf
Kaggle Kernel良かったregonn.icon
過学習に悩んでるregonn.icon
飯田産業コンペも自動売買も過学習になっている気がする。
飯田産業コンペの方は、ちょっと方針変えるのと、まだBoostingしかやってないので、NN系も触っていく予定
今週のtips
synchronous Kernels-only コンペで、サブミットの計算を省略して、プライベートスコアの計算を行う方法