espnet_model_zooのASRのモデルを読み込む

fs=16k, lang=jp の記載あり

訓練結果

ttslearn.util.example_audio_fileの音声データは認識できなかった

レトリバさんのブログにならったところ、別のデータは認識したので、設定誤りではなさそう

参考

ESPNetでは下記のwavファイルの設定でないと，ちゃんと文字起こしされません．

Channel num : 1

Sample width : 2 （←ソース不明）

Sampling rate : 16000

サンプルデータの参考にもした

ModelDownloaderを使う実装

code:python

>> import soundfile

>> from espnet2.bin.asr_inference import Speech2Text

>> speech2text = Speech2Text.from_pretrained("kan-bayashi/csj_asr_train_asr_transformer_raw_char_sp_valid.acc.ave")

>> speech_array, sampling_rate = soundfile.read("sample.wav")

>> sampling_rate

16000

>> speech_array.shape

(73781,)

>> speech_array.dtype

dtype('float64')

>> nbests = speech2text(speech_array)

>> len(nbests)

>> text, tokens, *_ = nbests0

>> text

'親譲りの無鉄砲で子供の時から損ばかりしている'