058 パイプラインとAtma杯#2

Podcast音声はコチラ - Anchor

2019年11月29日20時00分から

放送は、twitterで行います

kerneler.icon質問や感想は以下のマシュマロよりください

regonn&curry.fmにマシュマロを投げる | マシュマロ

いただいた質問はや感想は、放送で紹介します

kerneler.iconお題

このポッドキャストでは、Kaggleを中心としたデータサイエンスに関連する情報を配信していきます。

パイプラインについての質問

いつもポッドキャスト楽しく聞いています。(さいきん仕事でKaggleがおざなりだったのですが、ポッドキャストを聞きモチベを上げてます)

おとといのポッドキャストで少し話題となっていた「パイプラインを組んでいる」というところなのですが、こちらもう少し詳しく説明して頂けないでしょうか？

正直、パイプラインというもののイメージがよく分かっておらず。。。

たとえばカレーちゃんさんが組まれたパイプラインをNotebookで公開いただき、それを解説してもらえたりすると大変勉強になります。

よろしくお願いします！

上記、具体的な知りたいことは以下のイメージです。

・機械学習におけるパイプラインとは？

・パイプラインを組むメリット(主にKaggleで)

・具体的なパイプラインの中身

(もし可能なら、カレーちゃんさんのものを参考にさせてもらえると嬉しいです！)

・参考になる他の方のパイプライン

・初中級者向けパイプライン作成時のTips

今回のパイプラインは、データを受け取ってから、EDA（定型的なもの） -> 特徴作成 -> バリデーションの作成 -> LightGBMなどのモデルの作成 -> サブミットファイル作成までの一連のコード集という意味で使っていました。

パイプラインを組むメリットとしては、時間の節約だと思います。

どのコンペでもやることは似ているので、作っておくと使い回しができて、 EDAなどのコンペ毎に違ってやらないといけないことに時間を避けるので。

データを受け取ってから、やろうと思えばとりあえず15分くらいでLightGBMを回してsubmitファイルができるので、短期間のコンペだと有利になるかと思います。

私は、kaggle本で公開されているパイプラインと自分の特徴を作るコードを合体させました。

https://github.com/ghmagazine/kagglebook/tree/master/ch04-model-interface

http://www.currypurin.com/entry/2018/12/24/101647

IPythonでのデバッグ

JupyterまたはiPython Notebookでデバッグをする方法 \- Qiita

Google Cloud Run

Googleの「Cloud Run」が正式サービスに。KnativeベースでDockerコンテナをサーバレスとして実行－ Publickey

Atma杯#2参加してきました

コンペの概要

https://atma.hatenablog.com/entry/2019/11/26/173304

今回のタスクは"睡眠データをもとにその人の睡眠の質を予測する"というものでした。

データはユーザーごとにtrain, testで連続した時系列データが与えられました。

目的変数はユーザーが入力した1,2,3の3段階で与えられ、値が小さいほどその人の睡眠の質が低いことを表します。

評価指標はRMSEでした。

自分の成績currypurin.icon

パイプラインも使えて、スタートダッシュはよかった

時間のデータの前処理に時間を取られて、厳しかった

targetを特徴にするのが考えつかなくて、そこで大きな差がついてしまった

今週のKaggle

Kedro 使ってやってる

結構良さげ

Railsのような機械学習のフレームワークとして使える

一つの機械学習案件を一つのリポジトリでできるので、Kaggleの規模位がちょうど良い

DSB苦戦中 regonn.icon

Kaggle Daysのアジェンダとコンペデータ提供

データはNIKKEI

podcast 生配信 #質問