ウェイクワードの音声
「OK Google」と「Alexa」の音声ファイルのサンプルを用意した。
これらの音声には、スマートスピーカーが認識しやすいよう、調整を加えてある。
また、スマートスピーカーごとの音声認識の傾向と対策を述べる。
なお、Voice Matchを効かせるには、利用者本人の音声ファイルが必要なことに注意。
https://gyazo.com/7b8c30c72a5b22c88759b38be3e97372
OK Google https://raw.githubusercontent.com/takjg/TriggEye/master/ok_google.wav
Alexa https://raw.githubusercontent.com/takjg/TriggEye/master/alexa.wav
これらのWAVファイルは、音声合成システム Open JTalk で生成したものに少し手を加えてある CCライセンスのおかげで、以下の調整を加えたファイルを再配布できた。ありがたい ok_google.wav と alexa.wav というファイル名で TriggEye に同梱済み 調整内容
話速を1.3倍にした
スマートスピーカーがウェイクワードを認識するまでの時間を、わずかだが短くできる
1.7倍でも認識されたが精度が下がったので却下
語尾を伸ばした
合成テキストは、「アレクサ」よりも、「アレクサー」と語尾を伸ばした方が、認識されやすかった
音量を最大限に上げた
アンプのない100均スピーカーでも、できるだけ認識されやすいようにした
傾向と対策
実験の結果、Goolge Home には大きな音量のウェイクワードが必要なことが分かった。
一方、Amazon Echoは遠くからのウェイクワードは聞き漏らすが、近ければ、小さな音量でも聞き漏らさない。
table:傾向
静かな環境 うるさい環境
Google Home ◎ 遠くの小さな声にも反応する ✕ 小さな声は無視する
Amazon Echo △ 近くの声にだけ反応する ◎ 小さな声でも反応する
table:対策
静かな環境 うるさい環境
Google Home ◎ 100均スピーカーで十分 ✕ アンプ付きスピーカーが必要
Amazon Echo ◎ 100均スピーカーで十分 ◎ 100均スピーカーで十分
最も確実なのは、スマートスピーカーのウェイクボタンを物理的に押す方法
Google Home のウェイクボタンはタッチパネルなので、リレータッチボード(662円)がお手軽かも(未確認) 根拠
スマートスピーカー自身で音楽を再生中の環境で、すぐ横に100均スピーカーを置いて実験した
Google Home は、音楽の音量を5%まで下げても、100均スピーカーのウェイクワードを無視した
厳密には、ウェイクワード自体には反応したが、その後に続く、人間の音声指示を無視した
これはおそらく、誤認識による誤操作を防ぐための、Google Homeの仕様
アンプ付きのスピーカーで、大きな音量でウェイクワードを再生すれば、無視されなかった
Amazon Echo は、音楽の音量を60%まで上げても、100均スピーカーのウェイクワードに反応した
60%の音楽再生はかなり大音量だが、それでも聞き取ってくれた
ウェイクワード反応後は、しばらく音楽再生が小さくなるので、人間は小さな声で指示できて快適
補足
音量を大きくしたら、100均スピーカーとの距離が3~4倍離れても、スマートスピーカーを起動できた
table:認識できた距離 (静かな環境の場合)
音量を上げる前 音割れしない最大音量
Google Home ~70cm ~300cm
Amazon Echo ~30cm ~100cm
音量を上げる前のAmazon Echoは近くても聞き漏らしが多かったので、音量を上げた効果は大きい
合成音声の他、利用者本人の声を録音したファイルでも実験したが、誰の声でも大差はなかった
2019/8/21