046 Signate飯田産業コンペ
Podcast音声はコチラ
2019年08月16日 20時30分開始
放送は、twitterで行います
kerneler.icon質問や感想は以下のマシュマロよりください
regonn&curry.fmにマシュマロを投げる | マシュマロ
いただいた質問はや感想は、放送で紹介します
kerneler.iconお題
このポッドキャストでは、Kaggleを中心としたデータサイエンスに関連する情報を配信していきます。
雑談
土地コンペ
45位だったcurrypurin.icon
特徴増やすとスコアが徐々に上がって、この特徴がimportance上位なのかとなる良コンペだった。
匿名化されていない、テーブルコンペは楽しい
特徴を1000個ぐらい作って、LightGBMでほぼベストと同じスコア
https://sumaiida.com/ikkodate/area/kanto/saitama/
catboostとXGboostとスタッキングしたら少しだけスコアが上がって、それが最終モデル
住居表示の緯度と経度は少しだけ使ったけれど、あまり使えなかったのでそれが上位との差かも。
これをクラスタリングしたら、もしかしたらかなり効いたんじゃないかと思う。
把握してないけど、質問で簿記とかの話があった?regonn.icon
ところてんさんの、白金鉱業(SIROGANE鉱業meetup val10)での話がとても参考になった。
先週話せなかったので、今回はこれをがっつり話したい。
ところてんさんの話は
1つめのテーマがエンジニアも会計の知識あるよという話
データサイエンティスト・エンジニアも会計の話をできると経営者に刺さるよ
機械学習は労働集約的な産業を資本集約型産業にかえるよ
2つめのテーマが日本のITの税制やばいよという話
https://twitter.com/tokoroten/status/1159485575629627392?s=20
簿記2級レベルの知識はコスパ最強なので万人にオススメしたい。currypurin.icon
簿記の知識ないのにお金の勉強しても、全然意味がないレベル
数学とか物理に苦手感情がなかった人なら、割と簡単に身につけられて、一生使える
簿記の理解度は個人差が大きくて、苦手な人は全く理解できない不思議がある
Kaggle からメールで来たけど、初心者限定コンペが開催されるらしい。
We recently announced an invite-only competition for beginner data scientists, where you can team up with other newcomers to explore and learn data science together.
2019/8/22 までに
https://www.kaggle.com/learn/intro-to-machine-learning
https://www.kaggle.com/learn/intermediate-machine-learning
で Any% の進捗がある人に招待が来るらしい
IEEEのコンペでGCPの無料クーポンが配られてる
https://www.kaggle.com/c/ieee-fraud-detection/discussion/102253
フォームもKaggle公式のフォームだった
KaggleはGoogleの傘下なので上手く顧客してる感じがする
ML Study Jams のコースが公開された
https://developers-jp.googleblog.com/2019/08/ml-study-jams-vol3-machine-learning_14.html
全部で4種類
初心者向けが日本語対応
中級者向けが英語
7時間~12時間のコースなので、イベントも二日間開催とかにするかも
スタッキングの2分割の図をPlantUMLで書いてみた
https://twitter.com/regonn_haizine/status/1161170913531838464
PlantUMLを使うことで図をコードによって管理することができる
複数人で作業するとき、説明しやすい
Kagglerだとパワポ芸してくる人いるけど、フローをこんな風に管理しておきたい
今週のtips
特徴名を日本語にしてみた
podcast 生配信 #質問