espnet_model_zooのASRのモデルを読み込む
fs=16k, lang=jp の記載あり
訓練結果
ttslearn.util.example_audio_fileの音声データは認識できなかった
レトリバさんのブログにならったところ、別のデータは認識したので、設定誤りではなさそう
参考
ESPNetでは下記のwavファイルの設定でないと,ちゃんと文字起こしされません.
Channel num : 1
Sample width : 2 (←ソース不明)
Sampling rate : 16000
サンプルデータの参考にもした
ModelDownloaderを使う実装
code:python
>> import soundfile
>> from espnet2.bin.asr_inference import Speech2Text
>> speech2text = Speech2Text.from_pretrained("kan-bayashi/csj_asr_train_asr_transformer_raw_char_sp_valid.acc.ave")
>> speech_array, sampling_rate = soundfile.read("sample.wav")
>> sampling_rate
16000
>> speech_array.shape
(73781,)
>> speech_array.dtype
dtype('float64')
>> nbests = speech2text(speech_array)
>> len(nbests)
1
>> text, tokens, *_ = nbests0 >> text
'親譲りの無鉄砲で子供の時から損ばかりしている'