kaggle本第1章
1.1 分析コンペって何?
いきなり出てくる謎のワードたち
本でも説明されていますが、DataRobotのWikiがよくまとまっていたのでURLを貼っておきました
特徴量
テストデータ
目的変数
1.2 分析コンペのプラットフォーム
Kernel(Script)のコンソールの使い方(図1.11)currypurin.icon
コンソールの使い方慣れないんだけれど、どう使うのが良いんだろう?currypurin.icon
公式のドキュメントとかでどっかに書いてありましたっけ?currypurin.icon
公式ドキュメントだと引用文くらいで使い方には触れられてないですねwakame.icon
The console tab provides an alternative interface to the same Python or R container running in the Notebook. Commands you input into the console will not change the content of your snapshot. However, any variables you create in the console will persist throughout the session (unless you delete them). Additionally, any code that you execute in the editor will also execute in the console pane.
1.3 分析コンペに参加してから終わるまで
チームマージって皆さんどうやってますか?wakame.icon
どうやって相手見つけてますか、とか意外と気になる人多いと思う
相手が日本人ならそこまでコミュニケーションに困らないと思うが外国人は?
チームマージ難しいcurrypurin.icon
(外国の方からの)チームマージの連絡が欲しい場合は、プロフィールをなるべく埋めておくと良いらしい。currypurin.icon
特にLinkedInを埋めて、上位にいると連絡がくると言っている人がいたcurrypurin.icon
なるほどwakame.icon
Twitterのタイムラインやリーダーボードでのスコアやスコア報告を見てDMしてみる
自分が銅圏にいたら銅圏の人にという感じ
チームマージその後
実験管理とか役割分担とか情報共有などなど
チームボーダーコリーの例
日本人 2名のチーム
情報共有・実験管理・モチベ・メンタル管理について実際どうやったのか
どんなツール使ったのか、やってみてどうだったか、だめだったこと・よかったことが端的にまとめられている資料
とりあえずまとめスライドだけ読みたい場合はこのスライド
チームwodoriの例
日本人 5名のチーム
それぞれ明確な役割の分担をしている
kaerururu リーダー、自分のパートをひたすら改善, 手が回らないところを拾う
u++ 司令塔, discussion追う, 類似過去コンペの検証、external特徴作成, データクレンジング, u++特徴量作成, catboost検証, 猫カフェ
ynktk 提出コードの大枠作成, NN 検証 postprocess、高速化、Stacking
takuoko ソースコードマージ、NN実装、LGBM
gege gege part の改善, 実務でのデータ分析経験を活かしたinsight で作成した特徴作成
ソロでこなす必要がある discussion追う / 類似過去コンペの検証 / 特徴量生成あたりを分担できるのは良いなと思いました wakame.icon
また notebook 形式で書かれた kernel は実行単位でセルが分かれていることもあり、まとまりがない書き方をしても気にならないためソースコードマージが大変だったとチームメイトの takuoko さんは言っていました。
コンペを最初からチームマージ前提で取り組んでいるわけではないので、やはり各自のコードをマージするのは大変wakame.icon
Public/Private Leaderboardという存在
public leaderboardとprivate leaderboardってなに?を参照
最終予測値を選ぶ
意外とこれを忘れる人が多い
締め切りギリギリの提出になるとあせりや疲れ等で忘れるためだと思われる
約1-3ヶ月の努力が水の泡になるので、忘れずに2つチェックするようにしましょう
1.4 分析コンペに参加する意義
データサイエンティストとのつながり
kaggle-ja slackへの参加リンク
就業機会を得る
丁寧に説明してくれるカーネルが多いのでインプットにも良い
当たり前だがカーネルの説明のほとんどは英語のため、基本的な英語の読解能力は必要
そのため日本語 + kaggleのリソースはとても貴重
kaggle-ja slackの#beginners-slack、とりあえず質問を投げるとなにかしらの回答が返ってくる素晴らしいチャンネル
最近出版されたkaggle本
1.5 上位を目指すためのポイント
チームマージの重要性
「メダルが欲しい、Expert/Masterになりたいという目標」を設定しているのであればソロゴールド取得という条件は無視して良いので積極的にチームマージしたほうがよいと思う
GrandMaster Solo gold medal
Column 計算リソース
「Kaggleやるためにどんなマシン買えばいいですか」とよく聞かれる質問wakame.icon
画像コンペに毎回参加でもしない限り、いきなりマシン買うのは避けたほうがいい気がするwakame.icon
ハイエンドモデル(上位モデル)約30-40万円くらいの予算
上記予算かけるくらいならssh使えるノートPC使ってGCP動かしたほうがいいと思う、GCPの勉強にもなる
という雑魚kagglerの意見、プロkagglerの意見が気になる
ほぼ完全同意ですが、普段sshはおろかターミナルさえ使っていない場合は、いきなりGCPで環境構築と言われても相当厳しそうです。その場合は、Kernel -> GCP よりも Kernel -> 自宅PC という方が良いかもしれないcurrypurin.icon
クーポンがめっちゃ便利
画像コンペだとよくクーポンが配られるので積極的に利用しましょう
数に限りがあるのでDiscord内で周知するようにしたい
参考リンク