ESPnet2で始めるEnd-to-End音声処理
ESPnetは、E2E型モデルを記述したPythonライブラリ部と、シェルスクリプトで記述されたレシピ部で構成されています。
Pythonライブラリ部:PyTorch
レシピ部は、音声認識ツールキット #Kaldi の方式に基づいており、(引用者がタグに変更。Scrapbox内で紐付けるため) ESPnet2は、ESPnetの弱点を克服するべく開発された次世代の音声処理ツールキットです。
コード自体はESPnetのリポジトリに統合されています。
使いやすくなるようにいろいろと改良されている!
ESPnet2では、研究データ共有リポジトリであるZenodoと連携していて、様々な事前学習モデルを簡単に試すことができます。
より詳細な事前学習モデルの利用方法や公開されている事前学習モデルの一覧は、ESPnet Model Zooを参照してください。
(積ん読)レシピを利用したモデル構築
リポジトリ内のファイル配置について理解進みそう