動画要約AIを作ろうとした
動画の音声をAIで文字起こしして、要約するのはできそう(というか存在している)が音声のない動画をどう要約するのかが難しい。
? やったこと
Google Cloud Video Intelligence APIを使って物体検知 & Claudeの要約
物体検知をするだけで、どんな見た目で写っているかが抽出できない
? 試せそうなこと
動画からハイライトを抽出して部分部分で画像にしてClaudeなどに読み込ませる
動画を24fpsかにして画像を大量に作って、全部読み込ませることができるなら一番精度良さそう
画像からキャプションを生成するAIを駆使する
物体検知&ある程度の画面変動があったところを部分的に画像として抽出
動画を一枚の画像にして読み込ませる
短い動画ならいけそう