動画要約AIを作ろうとした

動画の音声をAIで文字起こしして、要約するのはできそう(というか存在している)が音声のない動画をどう要約するのかが難しい。

? やったこと

Google Cloud Video Intelligence APIを使って物体検知 & Claudeの要約

物体検知をするだけで、どんな見た目で写っているかが抽出できない

? 試せそうなこと

動画からハイライトを抽出して部分部分で画像にしてClaudeなどに読み込ませる

動画を24fpsかにして画像を大量に作って、全部読み込ませることができるなら一番精度良さそう

画像からキャプションを生成するAIを駆使する

物体検知&ある程度の画面変動があったところを部分的に画像として抽出

動画を一枚の画像にして読み込ませる

短い動画ならいけそう