あきおメモ：音声・音響研究

音声の勉強中。

この研究分野のお試しセット

固有声声質変換

eigendemoでは、声質を自由に操作することができるFlashデモです。

リアルタイム声質変換

リアチェンvoice～ジュラ紀版は、東北ずん子などのVOICEROIDにリアルタイムで声を変換できるスマホアプリです。

声質変換

ディープラーニングの力で結月ゆかりの声になってみた | Hiho's Blogは、結月ゆかりへの声質変換をDeep Learning + pix2pixで実現した技術です。

音声認識+VOCALOID

【スプラトゥーン】ゆかりさんに音声認識で実況してもらったは音声認識+VOCALOIDな結月ゆかり実況動画です。

音声認識で「結月ゆかり実況」動画を作る - Qiitaに解説が載っています。

TTS(Text To Speach)

ゆくも！はニコニコ動画でおなじみのゆっくり饅頭が入力テキストを喋るwebサービスです。

株式会社エーアイのデモは高品質な音声をテキストから合成するwebでデモができるサイトです。

音声合成の声優事務所は株式会社HOYAが作った感情テキスト音声合成のデモができるwebサイトです。

方言翻訳

秋田弁コンバータは標準語テキストを秋田弁テキストに翻訳して、音声を合成するwebサービスです。

音楽視聴支援

Songriumは歌詞検索や歌の男女度、歌声による歌手関連度を自動的に出力するwebサービスです。

音源分離(除去)

ｳｨｰを除去しようと思ったらはジャガーマンシリーズにおける「(ｳｨ-)ジャガー♫」の(ｳｨ-)を取り除こうとした動画です。

機械学習と音声のことが同時に学べて良いです。

音響学入門ペディア

FAQな本。全ての質問に3行で答えきれているのがすごい。

FAQとは、よくある(あるいはあると想定される)質問とその回答とを集めたもののことである。 FAQの語は英語のFrequently Asked Questionsの略語で、「頻繁に尋ねられる質問」の意味である。

気になる研究・記事

音声合成

ひっそり成長「合成声優」ヒカリちゃん　「声優さんの仕事を代替したい」―VoiceText開発者の挑戦 | ニコニコニュース

WaveNet

記事：Google Assistant、音声生成技術「WaveNet」によりさらに自然な日本語に - GGSO

記事：WaveNet launches in the Google Assistant | DeepMind

20秒の音声を1秒で生成できるようになったそうです。

音声認識

Deep Speech 2: End-to-End Speech Recognition in English and Mandarin

中国のBaiduのDL系音声認識研究。綺麗な音声に対して人間より聞き分けができる。紹介先のリンク。

実験に使うと便利なもの

GUI

Audacity

サウンドファイルを切り貼り、編集できるソフト。ノイズ生成や音のノーマライズ(音の大きさを揃える処理)、スペクトル分析までできる便利なソフト。実況者もよく使っている。欠点は、たくさんのファイルを自動的に処理できない。

Praat

音声の分析合成や、スクリプトを組むことで聴取実験までできるソフト。欠点は、そんなに使われていない気がすること。

CUI

SoX (Sound eXchange)

スイス生まれのサウンドファイル編集ツール。ローパスフィルタやハイパスフィルタ等のフィルタ掛けから、ヘッダ形式変換等、結構便利。パイプでつなげたりスクリプトから直接使えるので、大量のファイルに同じ処理をすることができる。

SPTK (Speech Signal Processing Toolkit)

日本生まれのサウンドファイル分析ツール。FFTなど分析ツールが揃っている。バージョンアップが年に1,2回あって、その度に新しい研究成果が追加される。ソースダウンロードするとコンパイルする必要があるが、Ubuntuではapt-getで入る。ただし、バージョンは最新ではない。

名工大では、このプログラムを一から作ることが研究室最初の試練らしい。

abxtest

聴取実験ABXテストが実施できるLinuxコマンドらしい。

Python関連

とりあえずanacondaを入れると良いと思う。

soundfile

wavファイルを扱うならこれで十分。wavファイルを入れると、sound dataとfrequencyを返してくれる。

pyworld

山梨大の森勢先生が作ったWORLDという音声分析合成ツールがあり、2017年時点で世界最強の性能。wavファイルから基本周波数(F0)とスペクトル包絡、非周期成分を抽出できる。もともとはC++とMATLAB版があるが、試しに使いたい場合はpyworldを使うと良い。

LibROSA

Pythonのサウンド分析ツール。音声だけでなく楽曲も分析可能。サウンドスペクトログラムの生成が簡単。

試しに音声認識させてみた人がいる。リンク。

merlin

Pythonで行う、ニューラルネットに基づく音声分析合成ツール。Sampleの音声を聞く限りでは、ほぼ判別ができないくらい音を再現できている。

nnmnkwii

山本りゅういち氏(@r9y9)によって作られた、DNN音声合成のためのライブラリ。ドキュメントが日本語で、かつ、最近の研究結果が取り入れられている。紹介リンク。

sprocket

kobayashi kazuhiro(@k2kobayashi)と戸田先生によって作られた、音声変換用のソフトウェア。開発中ではあるが、実験再現に使える。

もともとはVoice Conversion Challenge 2018(VCC2018)用に作られた、VCC2016のチャンピオンシステムを配布するためのもの。issue

pysptk

山本りゅういち氏(@r9y9)によって作られた、SPTKのpythonラッパー。

wavenet_vocoder

山本りゅういち氏(@r9y9)によって作られた、wavenetボコーダー。

ボコーダーというのは音声を生成する機械・システムのこと。

Frame work

Kaldi

DNN音声認識システムフレームワーク。ネットワーク構造を弄ったり、形態素解析の方法も選べる。参考リンク

必要なスペックは処理の早いCPUと大きいメモリ、GPUが必要。設定例ではcore i7、32GB、GeForce GTX970。

最近、KaldiからTensorFlowを呼び出せるようになったらしい。

Julius

大語彙連続音声認識システム。軽量でコンパクトらしい。

おそらく、大半の音声認識システムはこれを使っていると思う。

音響モデルが必要で、自分で作る必要がある。

無料のデータセット