めんたいこ - ユーザ検索プロジェクト:パイプライン構築
■タスク概要
-SlackのRawデータ取得処理(データレイク構築)
定期的に各Slackコメントを取得(差分取得?)し、BigQueryへRawデータを保存
その他メタデータ等も取得し、同様にBigQueryへデータを保存
XXXをGCSへ保存 ※(詳細不明))
ユーザ発言ベクター処理のバッチ処理(差分処理)
BigQuery上のユーザデータ、発現データを取得
ベクター処理化(python?BigQueryの関数で可能?)しそのデータをBigQueryへデータを保存
この前処理は、APIサーバーのマッチング処理の仕様と合わせる
データマート構築の自動化
マートチームとの連携が必要
■メンバー
asmrtさん
massoさん
sho.kumadaさん
Yanさん
Kさん
Komiyaさん
ジョージ
テーマ
digdagとembulkをGCP上で動かしてみた、を実現してみたい。
digdagサーバーをGCE上に構築
2020/6/5 ~ローカル環境で整備中
Airflow(Google Composer)ってどんなもの?何ができるの?
Google Dataflow との違い?
Slackのデータってどうやったら取得できるの?
そもそもどんなデータが取れるの?メタデータって何があるの?
python?
データをどうやってBigQueryに保存するの?
BigQueryって自分専用の環境つくれるの?
お金かかりすぎないか心配にならない?
ベクター処理って何?
BigQueryのデータをどうやって取ってきて、処理できるの?
Pythonならどうやってやるの?
Slackで取れるデータを確認する
わからないこと/質問リスト
- ローカルでのDockerでの環境構築(できたらカッコ良さそう)
- Embulkの競合サービスはGCPにある?komiya.icon
- GCE, GAE, GCFのユースケースkomiya.icon
- bigquery, cloud sqlの使い分けkomiya.icon
- モデルの推論値の格納先はbigqueryでOK?komiya.icon
MTG議事録