スマートフォン向けにカスタマイズが可能なサイレントスピーチインタフェース
クリエータ:
蘇子雄(東京大学 大学院学際情報学府 学際情報学専攻)
方詩涛(東京大学 大学院工学系研究科 電気系工学専攻)
担当PM:藤井彰人(KDDI Digital Divergence Holdings株式会社 代表取締役社長/KDDI株式会社 執行役員 ソリューション事業本部 ソリューション事業企画本部)
これ、2週間前のつくばのStartup Weekendの優勝チームがサイレントスピーチインターフェースを探していました。Hiromi Okuda.icon
まさしくこれですね!kunihirotanaka.icon
彼ら(筑波大学生)は電車の中でスマホで本を読みながら感想をタグづけ(付箋を貼るような)するアプリを作ろうとしていてHiromi Okuda.icon
対照学習
音声認識にどのモデル使ってるのか気になります......多言語で精度良さそうですごい今宿祐希.icon
声を出して使っている時の声と唇を学習データにして普段の利用で賢くなる、なるほどnishio.icon
なるほど笑っちゃうと認識精度が下がるのかjarakawa.icon+1辻口輝.icon
緊張して顔が硬くなると影響されちゃう?nishio.icon
角度が難しい?who.icon
画面にマイクが入ったのがいつもと違うのではという話nishio.icon
声を出さない追加デモ
マイクによって口を塞ぐことが影響する辻口輝.icon
口パクでの精度素晴らしい辻口輝.icon
何個くらいのコマンドを区別して使えるのか気になるー (既に紹介されていた?)
実験では最大30個だけど理論的には無制限なのかな......?
右上のウインドウはやっぱり必要なのかな伊藤謙太朗.icon
照明の具合によって精度が変わるのかなムウラ.icon
3サンプルで精度98%jarakawa.icon
自分の声でのデータを教え込むことを考えると、声帯を失った人の利用とかだと難しいのかな?Hiromi Okuda.icon
自分のデータがなくても口パクだけでいいのか、、
声は学習に必須ではないのですでに声が出ない人に関しては文字と口パクのペアで学習することになると思いますnishio.icon
UIST CHI採択強い、、、IkumaUchida.icon :clap: sowawa.icon
リポジトリのURLメモし忘れた...伊藤謙太朗.icon
ありがとうございます伊藤謙太朗.icon
ありがとうございます!!あとで資料をアップしますのでそちらもご参照くださいzxsu.icon
「緊張しすぎて口の動きがおかしくなった」
なるほど!自分の端末だけが反応するっていう観点いいですねHiromi Okuda.icon
屋外フェスなど音が大きくて音声認識が難しいイベントでも活用できますね辻口輝.icon