ActivityNet
https://scrapbox.io/files/664338697eb380001c31c2a0.png
動画における長期的な時空間推論のためのベンチマーク
言語と視覚のモデリングにおける最近の発展は、画像質問応答への応用に成功している。
このデータセットは、人気のあるActivityNetデータセットから派生した5,800の複雑なWeb動画に対する58,000のQAペアから構成されている。我々はActivityNet-QAデータセットの統計的分析を行い、既存のVideoQAベースラインと比較することで、広範な実験を行った。さらに、VideoQAの性能、特に長い動画に対する性能を向上させるための様々な動画表現戦略を探求する。
https://scrapbox.io/files/6643387ab6d313001c2df958.png