ESPnetを触る上で調べたことメモ
調べて使わなかった情報の書き出し
numpy array → bytes → arrayへの変換
https://stackoverflow.com/a/66227141
https://gist.github.com/hadware/8882b980907901426266cb07bfbfcd20
scipy.io.wavfile.read(io.BytesIO(input_wav))でbytesからnumpy arrayにできる?
soundfileではできなくて苦戦した(SpeechRecognitionのMicrophoneに入力した音声をESPnetのASRモデルで認識する(workaround))
解決!!SpeechRecognitionのMicrophoneに入力した音声をESPnetのASRモデルで認識する
Can I do recognition from numpy array? https://github.com/Uberi/speech_recognition/issues/486
Can I do recognition from numpy array without using wav?
dtを直接numpy arrayにしたいということだと思う
このIssueではwavファイルを使わない方法は不明
Recognition from existing raw audio data https://github.com/Uberi/speech_recognition/issues/165
I had to convert it using bumpy's np.int16() function.
numpyのtypoと思われる