045 atma杯 - regonn-curry

045 atma杯

Podcast音声はコチラ

2019年08月09日 21時00分開始

放送は、twitterで行います

kerneler.icon質問や感想は以下のマシュマロよりください

regonn&curry.fmにマシュマロを投げる | マシュマロ

いただいた質問はや感想は、放送で紹介します

kerneler.iconお題

このポッドキャストでは、Kaggleを中心としたデータサイエンスに関連する情報を配信していきます。

雑談

BIツールとか使ってる?

Tableau(タブロー)とかは学生なら無料だけど、個人で買うには高め

個人で無料で使えるプラットフォームやサービス試してる

Dataiku

読み方は Data と Haiku の組み合わせなので、データイク https://blog.dataiku.com/2014/08/07/pronouncing-dataiku

無料版でDockerが用意されているので、vscode の remote container で起動できるようにしてみた

Kaggle Titanic チュートリアルの公式記事もあった https://blog.dataiku.com/titanic-kaggle-made-easy

KaggleのOrganizationページもある https://www.kaggle.com/dataiku

結構 Kaggle と親和性が高そうだし、力を入れてくれている

Metabase

ちょっと、リアルタイムやWebに特化しているかも。

MatrixFlow

無料プランだと、データ量制限とかもあって難しかった

Qlik Sense

個人のDesktop版は少し機能が制限されているけど無料で使えるし、CSVを渡すだけで簡単な分析もしてくれる

ML Study Jams Vol.3 : Machine Learning トレーニングプログラム

今度はCouseraを使ってチームで学べるようになるらしい

松江で私がオーガナイザーになってイベント開催予定

統計検定データサイエンス基礎（CBT）

統計検定データサイエンス発展及び応用（CBT）

Kaggle界隈だと、色んな人が持ってるイメージの統計検定がデータサイエンス寄りの資格を出してきた。CBTなので、一斉にではなく、個別に会場でPCで受験するタイプのやつみたい。

atma杯オンサイトデータコンペ

参加してきたcurrypurin.icon

public6位、プライベート17位という結果だった

すぐにpublic6位のスコアを出せたがそこからスコアを伸ばせず、実力不足を痛感しました

白金鉱業 Meetup Vol.10（一周年記念回）

参加してきた。ところてんさん、Voicyの緒方代表、白金鉱業主催者の吉田さんとどれもすごい発表だった。

ところてんさん

機械学習で稼ぐための会計の話

後日、専門家のチェックを経た後に、資料が公開されるようです

エンジニアも会計に届く言葉で話す必要がある

利益 = 売上 - 変動費 - 固定費

労働集約型は変動費の割合が大きい

資本集約型産業は固定費の割合が大きい

機械学習は何を提供するか

機械学習により資本集約型産業に

損益分岐点も変わる

日本の税制やばい

https://twitter.com/tokoroten/status/1159485575629627392

緒方代表

音声データでつくるライフフィットメディア

音声データって面白いと

海外のpodcast市場は大きく成長中

発信者が短時間で発信できるように、設計している

voice native

文字が読めない子供は、声でググっている

ライフフィットメディア

生活しているだけで、必要な情報が入ってくる

音声のSEO市場は大きい

例えば「キレイになりたい」という検索があった時に、エステなのか、コスメなのか、、、あるのでそこを最適化できるとでかい

感想currypurin.icon

日本の音声の市場は全然小さいのでまだまだ大きくなりそう

Voicyは、データ基盤を作らないといけないので、そこも含めて機械学習をやってくれる人などを募集中とのこと

吉田さん

データサイエンス系の勉強会を1年間毎月開催したら何が起こるか？ ~白金鉱業1周年のまとめ~

会社の会議室の利用や懇親会費用を出してもらう

話を聞きたい方を読んで、話を聞ける

ブレインパッド社の卒業生が話を聞きにこれる

今後

不定期開催へ

podcastを始める

Kaggle新コンペ

https://www.kaggle.com/c/ciphertext-challenge-iii

今週のtips

kaggle apiからkaggleデータセットを作る

pythonから使ってしまうのが簡単そう

guiだと思い時があるので、これで作成・updateするのが便利だと思った。

code:python

import sys

from kaggle.api.kaggle_api_extended import KaggleApi

def main(mode):

api = KaggleApi()

api.authenticate() # 認証を通す

if mode == 'create': # 初めて作る場合

api.dataset_create_new(folder='pre_train', convert_to_csv=False)

if mode == 'version': # datasetsの更新の場合

api.dataset_create_version(folder='pre_train', convert_to_csv=False,

delete_old_versions=True, version_notes='update')

if __name__ == '__main__':

mode = sys.argv1 # コマンドライン引数に、create または versionをつける

main(mode)

jsonfileの一例

code:json

"title": "title",

"subtitle": "sub title",

"description": "let's get gold",

"id": "currypurin/url",

"licenses": {"name": "CC0-1.0"},

"resources": [

{

"path": "hogehoge.csv",

"description": "This is my awesome data!"

{

"path": "hogehoge2.csv",

"description": "This is my awesome extra file!"

}

"keywords": [

"beginner",

"tutorial"

]

}

podcast 生配信 #質問 #atma杯