045 atma杯
2019年08月09日 21時00分開始
kerneler.icon質問や感想は以下のマシュマロよりください
いただいた質問はや感想は、放送で紹介します
kerneler.iconお題
このポッドキャストでは、Kaggleを中心としたデータサイエンスに関連する情報を配信していきます。
雑談
BIツールとか使ってる?
Tableau(タブロー)とかは学生なら無料だけど、個人で買うには高め
個人で無料で使えるプラットフォームやサービス試してる
Dataiku
無料版でDockerが用意されているので、vscode の remote container で起動できるようにしてみた
結構 Kaggle と親和性が高そうだし、力を入れてくれている
Metabase
ちょっと、リアルタイムやWebに特化しているかも。
MatrixFlow
無料プランだと、データ量制限とかもあって難しかった
Qlik Sense
個人のDesktop版は少し機能が制限されているけど無料で使えるし、CSVを渡すだけで簡単な分析もしてくれる
今度はCouseraを使ってチームで学べるようになるらしい
松江で私がオーガナイザーになってイベント開催予定
Kaggle界隈だと、色んな人が持ってるイメージの統計検定がデータサイエンス寄りの資格を出してきた。CBTなので、一斉にではなく、個別に会場でPCで受験するタイプのやつみたい。
atma杯 オンサイトデータコンペ
参加してきたcurrypurin.icon
public6位、プライベート17位という結果だった
すぐにpublic6位のスコアを出せたがそこからスコアを伸ばせず、実力不足を痛感しました
白金鉱業 Meetup Vol.10(一周年記念回)
参加してきた。ところてんさん、Voicyの緒方代表、白金鉱業主催者の吉田さんとどれもすごい発表だった。
ところてんさん
機械学習で稼ぐための会計の話
後日、専門家のチェックを経た後に、資料が公開されるようです
エンジニアも会計に届く言葉で話す必要がある
利益 = 売上 - 変動費 - 固定費
労働集約型は変動費の割合が大きい
資本集約型産業は固定費の割合が大きい
機械学習は何を提供するか
機械学習により資本集約型産業に
損益分岐点も変わる
日本の税制やばい
緒方代表
音声データでつくるライフフィットメディア
音声データって面白いと
海外のpodcast市場は大きく成長中
発信者が短時間で発信できるように、設計している
voice native
文字が読めない子供は、声でググっている
ライフフィットメディア
生活しているだけで、必要な情報が入ってくる
音声のSEO市場は大きい
例えば「キレイになりたい」という検索があった時に、エステなのか、コスメなのか、、、あるのでそこを最適化できるとでかい
感想currypurin.icon
日本の音声の市場は全然小さいのでまだまだ大きくなりそう
Voicyは、データ基盤を作らないといけないので、そこも含めて機械学習をやってくれる人などを募集中とのこと
吉田さん
データサイエンス系の勉強会を1年間毎月開催したら何が起こるか? ~白金鉱業1周年のまとめ~
会社の会議室の利用や懇親会費用を出してもらう
話を聞きたい方を読んで、話を聞ける
ブレインパッド社の卒業生が話を聞きにこれる
今後
不定期開催へ
podcastを始める
Kaggle新コンペ
今週のtips
kaggle apiからkaggleデータセットを作る
pythonから使ってしまうのが簡単そう
guiだと思い時があるので、これで作成・updateするのが便利だと思った。
code:python
import sys
from kaggle.api.kaggle_api_extended import KaggleApi
def main(mode):
api = KaggleApi()
api.authenticate() # 認証を通す
if mode == 'create': # 初めて作る場合
api.dataset_create_new(folder='pre_train', convert_to_csv=False)
if mode == 'version': # datasetsの更新の場合
api.dataset_create_version(folder='pre_train', convert_to_csv=False,
delete_old_versions=True, version_notes='update')
if __name__ == '__main__':
mode = sys.argv1 # コマンドライン引数に、create または versionをつける main(mode)
jsonfileの一例
code:json
"title": "title",
"subtitle": "sub title",
"description": "let's get gold",
"id": "currypurin/url",
"resources": [
{
"path": "hogehoge.csv",
"description": "This is my awesome data!"
},
{
"path": "hogehoge2.csv",
"description": "This is my awesome extra file!"
}
],
"keywords": [
"beginner",
"tutorial"
]
}