120 ColabProとか
2021年3月22日20時10分から
kerneler.icon質問や感想は以下のマシュマロよりください
いただいた質問はや感想は、放送で紹介します
このポッドキャストでは、恋言とカレーが、Kaggleなどのデータサイエンスに関連する情報、新しい働き方、量子コンピュータ、xR等について話します。
kerneler.iconお題
基礎編ではOpenCV
応用編ではGDalや事例等
colab pro が日本からも申し込めるようになった
アナウンスはされていないし、トップページにはまだ米国とカナダだけと書かれている
これまで米国とカナダ以外の住所だとエラーになって申しこめなかったが、申し込める
https://gyazo.com/c8f55d98850f355c54b110979b8794f7
colabプロにより
GPUがP100もしくはV100になる?
そのほかのGPUが出ることもあるかも?
P100、V100ともメモリ 16GB
ハイメモリを選べるようになる
通常13.7GB
ハイメモリ27.4GB
複数起動できるようになる(3つか4つぐらい?)
使いすぎると、制限はかかる
セッション切れが起こらない
操作しなくても24時間動き続けるらしい
左下にターミナルボタンができる
https://gyazo.com/2c43b216f92f81f8cbd4bbf2e313cb24
https://gyazo.com/474c87b0eca0236f96b807217fe075b2
セルを実行していても、ターミナルでファイルのコピーとか削除とかできて便利
J-Quantsのコンペ第二弾
今回はニュースデータを利用して、原資100万円分で1週間の値動きを予測しポートフォリオを作成する
今回も充実したチュートリアルが公開されている
バスケコンペ終了
アメリカの大学生のバスケのトーナメントの結果を予想するコンペ
64チームのトーナメントなので、63試合の勝敗で結果が出る。
どのチームの対戦かは未確定のため、全通り2016チームの予想を提出する
評価指標はlogloss、
過去の順位とスコアの関係
男子
https://gyazo.com/01ecf0c5f9684b4b8c16a0c92153d3de
女子
https://gyazo.com/78cd4e9218a0db3bba434fab53aad150
女子の8チームの試合が終わった時点でのLB
https://gyazo.com/34eed6efdbade24d1efb57e91bb8cb85
データは20ぐらいのcsvファイルが配られる
特に重要なのは次のもの
レギュラーシーズンのデータ(レギュラーシーズンの上位がトーナメントに進める)
過去から今期まで与えられる
トーナメントのシード(重要、seed1、seed2のチーム超強い)
トーナメントの過去の結果
過去から去年まで
ランキング(男子のみ、色々なランキング指標が与えられる)
自分のsolution
トーナメントデータを学習データにして、LightGBMとCatBoostで学習した
1サンプルは、2チームそれぞれの情報(シード、ランキング、レギュラーシーズンの結果)、2チームのシードやランキングの差分
2015年から2019年をそれぞれ検証データにして学習(同じYearを入れると過学習する)
男子はランキング特徴がとても強い
女子はランキング特徴がないので、Seedの情報など
男子はlabel smoothing(labelを0.9に修正)するとcvがとても改善した
女子は中途半端な予想になってい待ったので、下の予想勝率が書いてあるサイトを参考に、手動で予測確率を修正
参考になった情報
レギュラーシーズンの結果からGLMで強さを1変数で表す特徴を作成
kenpomというサイトから、kagglenotebookでスクレイピングする
トーナメント表と、予測勝率が出ている
2018年以降のトーナメントの勝敗の状況を,予測csvファイルを入れて見ることができる
今週のKaggle
俳句
自転車のホイールにつく杉菜かな