大きいデータの画像コンペにどう取り組むか
質問
kaggleの画像コンペのようににデータセットが〇〇〇GBとかあるコンペはどのように
進めていけばいいのでしょうか?😓
そもそもデータセットの準備自体が障壁になってしまっています‥
答え
ローカルにGPUがあるのか、GCPを使えるのか、Kaggleでやるのかのどれかによって、変わってくると思います。
どれですかね?
コンペにもよりますが、画像サイズを256x256とか312x312とかに縮小して実験するのがよくあるパターンだと思います。
* 序盤でDiscussionに画像サイズが大きいパターンと小さいパターンのCV・LBを書いてくれることが多い
* 小さい画像サイズの実験結果は経験的に大きい画像サイズにも当てはまる傾向にある
なので、自分がやるならですが、kaggleのnotebookで小さい画像サイズにリサイズしてしまって、kaggle datasetsにあげておく
これで、もとのサイズのデータも、リサイズしたデータもkaggle apiでダウンロードできるようになる
GCPであれば、kaggle apiを使って、ダウンロードしてしまうと良い
kaggle apiの使い方はブログ記事を参考にしてください。
ツイート