あきおメモ:音声・音響研究
音声の勉強中。
この研究分野のお試しセット
固有声声質変換
リアルタイム声質変換
声質変換
音声認識+VOCALOID
TTS(Text To Speach)
ゆくも!はニコニコ動画でおなじみのゆっくり饅頭が入力テキストを喋るwebサービスです。 方言翻訳
秋田弁コンバータは標準語テキストを秋田弁テキストに翻訳して、音声を合成するwebサービスです。 音楽視聴支援
Songriumは歌詞検索や歌の男女度、歌声による歌手関連度を自動的に出力するwebサービスです。 音源分離(除去)
この研究分野のおすすめ本
機械学習と音声のことが同時に学べて良いです。
FAQな本。全ての質問に3行で答えきれているのがすごい。
FAQとは、よくある(あるいはあると想定される)質問とその回答とを集めたもののことである。 FAQの語は英語のFrequently Asked Questionsの略語で、「頻繁に尋ねられる質問」の意味である。
気になる研究・記事
音声合成
WaveNet
20秒の音声を1秒で生成できるようになったそうです。
音声認識
中国のBaiduのDL系音声認識研究。綺麗な音声に対して人間より聞き分けができる。紹介先のリンク。 実験に使うと便利なもの
GUI
サウンドファイルを切り貼り、編集できるソフト。ノイズ生成や音のノーマライズ(音の大きさを揃える処理)、スペクトル分析までできる便利なソフト。実況者もよく使っている。欠点は、たくさんのファイルを自動的に処理できない。
音声の分析合成や、スクリプトを組むことで聴取実験までできるソフト。欠点は、そんなに使われていない気がすること。
CUI
スイス生まれのサウンドファイル編集ツール。ローパスフィルタやハイパスフィルタ等のフィルタ掛けから、ヘッダ形式変換等、結構便利。パイプでつなげたりスクリプトから直接使えるので、大量のファイルに同じ処理をすることができる。 SPTK (Speech Signal Processing Toolkit) 日本生まれのサウンドファイル分析ツール。FFTなど分析ツールが揃っている。バージョンアップが年に1,2回あって、その度に新しい研究成果が追加される。ソースダウンロードするとコンパイルする必要があるが、Ubuntuではapt-getで入る。ただし、バージョンは最新ではない。
名工大では、このプログラムを一から作ることが研究室最初の試練らしい。
聴取実験ABXテストが実施できるLinuxコマンドらしい。
Python関連
wavファイルを扱うならこれで十分。wavファイルを入れると、sound dataとfrequencyを返してくれる。
山梨大の森勢先生が作ったWORLDという音声分析合成ツールがあり、2017年時点で世界最強の性能。wavファイルから基本周波数(F0)とスペクトル包絡、非周期成分を抽出できる。もともとはC++とMATLAB版があるが、試しに使いたい場合はpyworldを使うと良い。 Pythonのサウンド分析ツール。音声だけでなく楽曲も分析可能。サウンドスペクトログラムの生成が簡単。
Pythonで行う、ニューラルネットに基づく音声分析合成ツール。Sampleの音声を聞く限りでは、ほぼ判別ができないくらい音を再現できている。 山本りゅういち氏(@r9y9)によって作られた、DNN音声合成のためのライブラリ。ドキュメントが日本語で、かつ、最近の研究結果が取り入れられている。紹介リンク。 kobayashi kazuhiro(@k2kobayashi)と戸田先生によって作られた、音声変換用のソフトウェア。開発中ではあるが、実験再現に使える。 もともとはVoice Conversion Challenge 2018(VCC2018)用に作られた、VCC2016のチャンピオンシステムを配布するためのもの。issue 山本りゅういち氏(@r9y9)によって作られた、SPTKのpythonラッパー。 ボコーダーというのは音声を生成する機械・システムのこと。
Frame work
DNN音声認識システムフレームワーク。ネットワーク構造を弄ったり、形態素解析の方法も選べる。参考リンク 必要なスペックは処理の早いCPUと大きいメモリ、GPUが必要。設定例ではcore i7、32GB、GeForce GTX970。
最近、KaldiからTensorFlowを呼び出せるようになったらしい。 大語彙連続音声認識システム。軽量でコンパクトらしい。
おそらく、大半の音声認識システムはこれを使っていると思う。
音響モデルが必要で、自分で作る必要がある。
無料のデータセット