058 パイプラインとAtma杯#2
2019年11月29日20時00分から
kerneler.icon質問や感想は以下のマシュマロよりください
いただいた質問はや感想は、放送で紹介します
kerneler.iconお題
このポッドキャストでは、Kaggleを中心としたデータサイエンスに関連する情報を配信していきます。
パイプラインについての質問
いつもポッドキャスト楽しく聞いています。(さいきん仕事でKaggleがおざなりだったのですが、ポッドキャストを聞きモチベを上げてます)
おとといのポッドキャストで少し話題となっていた「パイプラインを組んでいる」というところなのですが、こちらもう少し詳しく説明して頂けないでしょうか?
正直、パイプラインというもののイメージがよく分かっておらず。。。
たとえばカレーちゃんさんが組まれたパイプラインをNotebookで公開いただき、それを解説してもらえたりすると大変勉強になります。
よろしくお願いします!
上記、具体的な知りたいことは以下のイメージです。
・機械学習におけるパイプラインとは?
・パイプラインを組むメリット(主にKaggleで)
・具体的なパイプラインの中身
(もし可能なら、カレーちゃんさんのものを参考にさせてもらえると嬉しいです!)
・参考になる他の方のパイプライン
・初中級者向け パイプライン作成時のTips
今回のパイプラインは、データを受け取ってから、EDA(定型的なもの) -> 特徴作成 -> バリデーションの作成 -> LightGBMなどのモデルの作成 -> サブミットファイル作成までの一連のコード集という意味で使っていました。
パイプラインを組むメリットとしては、時間の節約だと思います。
どのコンペでもやることは似ているので、作っておくと使い回しができて、 EDAなどのコンペ毎に違ってやらないといけないことに時間を避けるので。
データを受け取ってから、やろうと思えばとりあえず15分くらいでLightGBMを回してsubmitファイルができるので、短期間のコンペだと有利になるかと思います。
私は、kaggle本で公開されているパイプラインと自分の特徴を作るコードを合体させました。
IPythonでのデバッグ
Google Cloud Run
Atma杯#2参加してきました
コンペの概要
今回のタスクは"睡眠データをもとにその人の睡眠の質を予測する"というものでした。
データはユーザーごとにtrain, testで連続した時系列データが与えられました。
目的変数はユーザーが入力した1,2,3の3段階で与えられ、値が小さいほどその人の睡眠の質が低いことを表します。 評価指標はRMSEでした。
自分の成績currypurin.icon
パイプラインも使えて、スタートダッシュはよかった
時間のデータの前処理に時間を取られて、厳しかった
targetを特徴にするのが考えつかなくて、そこで大きな差がついてしまった
今週のKaggle
結構良さげ
Railsのような機械学習のフレームワークとして使える
一つの機械学習案件を一つのリポジトリでできるので、Kaggleの規模位がちょうど良い
DSB苦戦中 regonn.icon
データはNIKKEI