CNNによる関節座標を用いたボディパーカッションの特徴抽出とデジタル効果音を付与する動画編集システムの提案と実装

◎角谷康太, 片山泰輔, 豊田麻友, 久野文菜, 濱川礼（中京大学）

本論文ではユーザが所有しているボディパーカッションの動画の関節座標から CNN を用いて特徴抽出し，手で叩いた音を自動で変換した様々なデジタル効果音を付与する動画編集システムについて述べる．最近 YouTube や Tik Tok などの SNS の普及により，誰でも動画を用いたエンターテイメントを発信できるようになった．しかし発信する動画を制作する際，動画編集の経験が少ないためクオリティの高い作品を作ることが難しい場合がある．そこで自動で動画編集ができれば誰もが高いクオリティの動画の制作が可能になると考え，動画編集の中でもその瞬間の印象付けに役立つ効果音の付与を自動で行うシステムを提案する．ボディパーカッションの動画をシステムの入力とし，Open Pose で手の動きを追うことで体を叩いた時間領域を取得する．その後，時間領域内にある動画の音源データをメルスペクトログラム画像に変換し，CNN で真偽判定することでその時間領域内にデジタル効果音を付与するかを判断する．最後に，動画内の人が着ている服装の種類を認識し，対応する効果音を付与する．

http://id.nii.ac.jp/1001/00210159/

これは「遅れ」との戦いになるのでしょうか・・・(長嶋)

以下の作品の時には、画像認識で「楽器が光ったら音を出す」という当初計画は遅れのために断念して、

手の甲に置いた加速度センサからMIDIを出しました。パーカッションだと遅れ50msecは致命的、30msec以内が必須だと思います

https://www.youtube.com/watch?v=lcoANcRQ0ao

全然関係ないのですが、踊っている人の後ろの３色収納BOX、実家にあるのでなんかほのぼのしました…（浦谷/未来大)

デモ動画，よければURLアップしてほしい..（ZOOM越しでカクカクさっぱり（´-`）（橋田）

デモ動画から拝見する感じだと遅れは100msecオーダかなぁ・・・(長嶋)

時系列機械学習利用の場合、予備動作を捉えることでみかけレイテンシ問題を解決することが可能です。see Wekinator（片寄）

(長嶋)確かにそうですね。プレステとか任天堂のスポーツ系の場合には、動作を「予測」することでレイテンシを避けてましたね。

ダンスの腕の伸び切ったところをうまく検出してダンスの拡張できないですかね？そういうシステムあったら使う人多そう．叩く音鳴ってないから厳しいんですかね．．tsuchida.icon

(長嶋)ヤマハの2代目のMIBURIはそういう方向性だったんじゃないかなぁ・・・