AIとイデア
wav2vec2.0の事前学習は特徴量の数値のみを推定させるものですが、更に量子化された特徴量を「文字」と見なし、自然言語処理の事前学習手法であるBERTで行われたマスク推定学習を追加で行えば、より深い意味情報を学習できるではないか?
というアイデアを試したのがw2v-BERTです。
新しい手法をwave2vec2.0などの事前学習手法と比較した結果、たしかにより高い音声認識精度を達成できました。音声のより深い意味情報を抽出するエンコーダーを得ることができたと言えるでしょう。
ベクトル化した言語を用いた他媒体への変換
ほぼイデア?
Google翻訳の性能が急に向上したとき、興味深い指摘が。
かなりこなれた翻訳ができるようになった理由に、「人工知能の中に、日本語でも英語でもない『何か』が生まれて、それをどこかの国の言葉で表現しているだけなのでは」と。人工知能が膨大な学習をした結果、「イデア」が発生したのかも。