登壇発表を対象としたライブ中継のためのマルチカメラ自動スイッチングシステムの提案

◎比佐翔太, 竹川佳成（公立はこだて未来大学）, 松村耕平（立命館大学）, 五十嵐健夫（東京大学）, 平田圭二（公立はこだて未来大学）

本研究では登壇発表を対象としたライブ中継のための自動スイッチングシステムの設計と実装を目的とする．近年，Covid-19 の影響に伴い，Zoom などを用いた学術発表やセミナーのライブ中継が一般的になりつつある．また，単一のカメラによる固定アングルでの中継は，視聴者の集中力が途切れやすかったり，離脱率が高い傾向にあるといわれており，マルチカメラによるスイッチングはプロフェッショナルなライブ中継において一般的に利用されている．適切なスイッチングには経験や知識が必要とされると同時に，人的リソースが求められる．本研究では，音声認識・文字認識・画像処理を用いて登壇発表中の各種イベントを自動認識する機能，Endo らが提案したスイッチングの状態遷移モデルにもとづきマルチカメラから最適なカメラ映像を選択する照合器をもつ自動スイッチングシステムを提案する．各イベントの認識モデルおよび照合器の妥当性を検証する評価実験を実施し，現時点の精度や課題を明らかにした．

http://id.nii.ac.jp/1001/00210134/

「表のこの部分をご覧ください」のような発言は検出できる？mmina.icon

ご質問ありがとうございます．現時点の実装はできていませんが，ゆくゆくはプレゼン用意味解析アルゴリズムを導入してこういう発言の検出ができると良いかなと思っています．（竹川）

ご質問ありがとうございます．現在は検出できません．現時点でのスライド言及モデルは，スライド中の文字情報のみを抽出しているためです．今後はスライド中の図の情報を抽出する方法についても導入していく予定です．（比佐）

話者のジェスチャーを認識するのは難しい？指し棒とかマウスカーソルとか。mmina.icon

展望に書いてありましたね。mmina.icon

ジェスチャについては映像から発表者の関節位置を取得し，それらを特徴量とする認識モデルを構築する予定です．

確かに、プレゼンの時はスライドメインになりがちでしょうから、むしろスライドについて言及していない、話者を写すべきシーンを検出する方がよいのかも。mmina.icon

貴重なご意見ありがとうございます．スライド外言及認識モデルのアルゴリズムを改良し，話者を移すべきシーンを的確に捉えて，スイッチングの回数が多い映像が出力できると視聴者が集中できるようにしたいと考えています．

カメラ等は会場に固定で，カメラワーク担当と発表者が事前に内容確認をすることがない，という前提のもとのシステム？（橋田）

ご質問ありがとうございます．おっしゃる通り，カメラビューは固定であるという前提のシステムでございます．しかし，発表スタイルによっては発表者が移動したりすることもあると思いますので，可変のカメラビューも扱えるようになるとさらに良いシステムになると考えてます．