音声認識
高精度な音声認識モデルを訓練するには、大量のラベル付き学習データ(音声と、それを文字起こししたもの)が必要であることが知られています。画像認識 (ImageNet) や自然言語処理 (BERT) の分野において成功を収めた転移学習の手法は、音声認識の分野では有効ではないのでしょうか? 本記事では、現在 (2020年10月) の段階における「音声認識の転移学習革命」の最前線を追ってみたいと思います。以下で紹介する手法を追ってみると、音声認識の分野でも「ImageNet 的瞬間」が着実に進んでいることが分かります。