SottoVoce: An Ultrasound Imaging-Based Silent Speech Interaction Using Deep Neural Networks – Rekimoto Lab
音声によって操作されるデジタル機器の利用可能性は急速に拡大している.しかし,音声インタフェースの使用状況は依然として制限されている.たとえば,公共の場で話すことは周囲の人に迷惑になり,秘密の情報を話すことができない.SottoVoce (ソット・ヴォーチェ、音楽用語で 「ささやくように」)は,超音波エコー映像を用いて,利用者の無発声音声を検出するシステムを提案する.顎の下側に取り付けられた超音波イメージングプローブによって観察される口腔内の情報から,利用者が声帯を振動させずに発話した発声内容を認識する.超音波画像の系列から音響特徴を生成するニューラルネットモデルを提案する.提案モデルにより,合成したオーディオ信号が Amazon Echo など、既存の無改造のスマートスピーカーを制御できることを確認した.これにより,人間とコンピュータが緊密に連携した種々のインタラクションが可能になり,新しいウェアラブルコンピュータが構成可能になる.また,咽頭の障害,声帯機能障害,高齢による発声困難者に対して,声によるコミュニケーションを取り戻すための技術基盤につながるものである.
https://rekimotolab.files.wordpress.com/2019/03/sottovocesetup.png#.png
暦本 純一(東大/ソニーCSL),木村 直紀,河野 通就(東大), SottoVoce: 超音波画像と深層学習による無発声音声インタラクション, インタラクション2019
Naoki Kimura, Michinari Kono, Jun Rekimoto. SottoVoce: An Ultrasound Imaging-Based Silent Speech Interaction Using Deep Neural Networks, ACM CHI 2019 Honourable Mention Award Pre-print