EgoSchema
非常に長時間のビデオ質問応答データセット
最新の視覚および言語システムの長時間のビデオ理解能力を評価する
EgoSchemaは、Ego4Dから派生したもので、人間の自然な活動や行動の非常に広い範囲をカバーする、250時間以上の実際のビデオデータにまたがる、5000以上の人間がキュレーションした多肢選択問題回答ペアで構成されている。
各質問について、EgoSchemaは3分間のビデオクリップに基づき、与えられた5つの選択肢から正しい答えを選ぶよう要求する。
https://scrapbox.io/files/664339a50dcdeb001decb164.png
https://www.youtube.com/watch?v=_VVoiSzb5E4