040 Validation大事
2018年06月29日 23時00開始
kerneler.icon質問や感想は以下のマシュマロよりください
いただいた質問はや感想は、放送で紹介します
kerneler.iconお題
このポッドキャストでは、Kaggleを中心としたデータサイエンスに関連する情報を配信していきます。
雑談
Juliaの特集では、Julia言語の概要から、Juliaの型システム、IJulia.jlでのデータ分析、パッケージ管理など一通り触れられている感じ。とても良いJulia入門記事。
他の特集も、Rails6やプロジェクトの見える化で普段の業務にも役に立ちそう
LINEが独自のコンペを開く
メインの参加者は日本・韓国・台湾
予選 画像コンペ
予選も抽選らしい
本線CTR(Click though rate)予測コンペ(韓国)
https://gyazo.com/d0024b26a7a6cecbb8e14998c6cd63b4
分析したいデータがあるけれど分析できていないのか、それとも分析したいデータが見つからないと言う課題なのか。
後者であればそもそもどうしてデータ分析をしたいのかを考えると良いと思う。
https://gyazo.com/aedae39333d7b4c05398eed78170394b
私(@currypurin )はkaggleをやりたいという用途だけなので、kaggleで学びました。
やりたいことがある都度、調べていると、似たようなことをたくさんやるので、できるようになってくるとおもいます。
もともと、WebプログラマでPythonに似たRubyを触っていたので、「こんな処理したいんだけど、あるでしょ?」みたいな感じで検索すればたいていある。regonn.icon
https://gyazo.com/0c9c9a2b4701f975aeb79c0d81d78a70
使えるデータであれば、とりあえずpandas-profilingを使う。
その次はどう可視化するかはデータに依存するので、可視化したくなってから、調べながら可視化する。Kernelを参考にするのが早い。
などでしょうか。
https://gyazo.com/d09576f434c5f00163be76907ea5e2b2
特徴量作りは確かに重要なんですが、その他にも
・validationの切り方
・どのアルゴリズムを使うか
とか他にも重要なことはありそうです。
validationの切り方が固まって、cvスコアとパブリックリーダーボードが同じように動くとかであれば、特徴作りに注力できます。
https://gyazo.com/3e9f4e0c0f0a1b843121dda1dd5e87cf
Signateアヤメ
結局96.0のままだった regonn.icon
チートシート参考に k近傍法加えてみたり
Stage2で説明変数が [0,1,2] の数字だったので、predict_proba にして確率を見るようにしてみた
Stage2 はLinearSVCに変更した
Signate飯田産業コンペ
コードにミスがあって、修正したら改善したregonn.icon
普段どうやってチェックしているか?
ちょっと、全体的に詰まってきた感があるので、CouseraのKaggle講座受講中
Signate新コンペ
フォーラムなし
チームあり、チーム申請締切7/10 8/21
10/15期限
武田薬品工業 × SIGNATE
AI創薬: 薬物動態パラメータ予測
テーブル
Kaggle新コンペ
気胸のセグメンテーション
データのダウンロードはGCPから行う
2stage制
YouTube動画解析
VTuberとか動画コンテンツに興味あるので、これやる予定regonn.icon