音響モデル
ある
単語列
に対して
音素列
がどれくらいの
確率
で観測されるかを表す
確率モデル
.
隠れマルコフモデル
が標準的に利用されている
RNN
で実装される場合,
音声データ
の
時系列データ
の数と正しい
音素
の数が必ずしも一致しない.
Connectionist Temporal Classification
を用いている