Zoom環境におけるcaptiOnlineの利用
概要
Zoom上で開催される講演や授業などでcaptiOnlineを利用する方法を解説
入力者側
PC1台の場合
文字通訳が必要なZoomのルームに入る
音声と映像が得られる
ブラウザでcaptiOnlineの入力者ページを開く
Zoomアプリ,captiOnlineのブラウザのレイアウトを調整する
外部ディスプレイがあるとZoomとcaptiOnlineの画面を分けられて良い
Zoomの音声を聞いて他の入力者とともに連係入力
PC等が2台以上の場合
PC_A(スマホ等でも可能)で文字通訳が必要なZoomのルームに入る
音声と映像が得られる
別のPC_BのブラウザでcaptiOnlineの入力ページを開く
PC_AのZoomの音声を聞いて,PC_BのcaptiOnlineで他の入力者とともに連係入力
※captiOnlineでの入力はPCのほうが良いので,1台がスマホ等の場合はZoomへのアクセスをスマホにしたほうがよい
利用者側
PC1台の場合
文字通訳を受けるZoomのルームに入る
ブラウザでcaptiOnlineの利用者(閲覧者)ページを開く
ここに字幕が表示される
Zoomアプリ,captiOnlineのブラウザのレイアウトを調整する
横並びにすると見やすい
外部ディスプレイがあるとZoomとcaptiOnlineの字幕の画面が分けられて良い
PC等が2台以上の場合
PC_A(スマホ等でも可能)で文字通訳を受けるZoomのルームに入る
別のPC_B(スマホ等でも可能)のブラウザでcaptiOnlineの利用者(閲覧者)ページを開く
ここに字幕が表示される
※PCとスマホの場合,PCをZoom,スマホをcaptiOnlineにすると良いかもしれない
入力者側での音声認識の利用
音声認識の特徴
音声認識は入力される音声の質が認識率に直接影響する
ノイズに弱いので静かな環境で.ピンマイクなどの利用も良い.
Zoomなどを介して得られた不可逆圧縮されており音質が悪い
基本的には発話者の音声を直接音声認識にかけるのが良い.
誤認識・誤変換は必ず発生する
日本語として自然な誤認識・誤変換をするので,音声情報を得にくい聴覚障害者にとっては誤りに気づくのが困難
修正が必須
captiOnlineではWeb Speech APIを使用している
発話者(講演者や授業者)に協力してもらう
発話者がPCで講演や授業をするZoomに入る(当たり前ですね)
発話者が同じPCのブラウザでcaptiOnlineの入力ページに入る
発話者がcaptiOnlineの音声入力パネルで音声認識を開始する
他の入力者が文訂正パネルを使用して誤認識・誤変換等を修正する
入力者が発話者をリスピークする
入力者達が対象のZoomに入る
入力者達もcaptiOnlineの入力者ページを開く
1名の入力者A(リスピーク担当)が音声認識パネルで音声認識を開始する
入力者Aが発話者の声をリスピークして音声認識させる
入力者A以外の入力者が文訂正パネルを使用して誤認識・誤変換等を修正する
Zoomの音声を音声認識の入力に使用する
※技術的ハードルが高い
PCで再生された音声を入力できるようループバック録音の設定等をする
captiOnlineを開いたブラウザのマイク入力をループバック録音用の入力に切り替える
音声認識パネルで音声認識を開始する
ZoomにcaptiOnlineから字幕を挿入する
使用条件
captiOnline4のみの機能
captiOnline4は2021/02/09現在ベータテスト中
設定と字幕送出の開始
ZoomのクローズドキャプションAPIのトークンをコピー
captiOnline4の「Zoom CC」のページへトークンをペーストする
同ページで「Start」ボタンを押して送出を開始する
Typistページで入力された字幕がZoomの字幕としても送出され,Zoomにも表示される
Zoom CC の v1 と v2 の違い
Zoom CC v1 は入力された文がその都度Zoomに送られる
連係入力の際は細切れになることも.一応対策もしている
入力途中の文もリアルタイムで送出することが可能
※Transmission time intervalを短くしすぎると字幕の送出が詰まる現象がある.2000ms程度が安定か
Zoom CC v2 は利用者ページの字幕の最後の3行がZoomに送られる
3行同時が一気に見えるので,字幕の見やすさは良い
しかしフルトランスクリプトを見ると前後の重複が多く,ログとしての活用は困難
逆にログを2次利用されたくない場合はよいかもしれない