膨大なデータを処理する時の個人が思うTips
経緯
画像に何が写っているのかを説明する文章を OpenAIのAPI(GPT-4o-mini)で生成した
クレジット制ではあるものの、料金が発生するタスクであるため慎重にコードを書く必要があった
特に意識したこと
APIのコード以外で不安がある時にはAPIリクエストを送らない
デバッグの本質がAPI部分ではないため無駄な出費になってしまう
どこまで成功しているかのログを出力する
APIリクエストが失敗している場合にどこまで成功しているかを把握するため
時間がかかる作業の場合、どの程度の時間がかかるのかを見積もるため
ログが大量になる場合はテキストファイルに書き出していくのでもいいかも
生成したデータをこまめに出力する
今回は5000件を扱う(予定)のため、100件ごとにファイルに書き出す
途中で失敗したら、修正して続きからやり直せばいい(最初からやり直さないといけない場合もあります)
(テキストであれば1件ずつファイルに追記すれば良いが、今回のタスクではJSON in リストだったため100件とした)
(基礎料金が高いものを最初に使わないようにする)