声質変換
声質変換とは
声質変換(Voice Conversion: VC)とは、ある音声に含まれる声質を他の声質に変換する技術である。
理想は名探偵コナンの蝶ネクタイ型変声機だが、現実はそこまでうまくいっていない。(あれはすごくよくできている)
https://gyazo.com/f61d31622261bbafd6b46e8a56d74f03
VC手法
いくつか存在するが、代表例を挙げる。
コードマッピング法
最も古い方法かも。
混合正規分布モデル(GMM)に基づくVC
同じ発話をする話者Aと話者Bの音響特徴量対(Parallel data)の対応関係を混合ガウス分布(GMM)で学習し、話者Aの未知の発話を入力すると話者Bの声質に変換される。
様々な改良例がある。
トラジェクトリベース
GV
差分スペクトル法
たぶんこれが最も簡単
固有声に基づくVC
GMMに基づくVCで問題だった大量のParallel dataを使わず、また任意の話者に変換する方法。
同じ発話をする話者Aと大量の話者群XのParallel dataの対応関係をGMMで学習し、そのGMM群の平均ベクトルを主成分分析(PCA)を行い固有声を作成する。(pre-stored学習ステップ)
話者Bの発話を模倣するように固有声に含まれる大量の話者群Xの声質重みを学習する。(話者適応ステップ)
話者Aの未知の発話を入力すると話者Bの声質に変換される。
変換された音声がGMMに基づくVCに比べて良くない。
深層学習(DNN)に基づくVC
RNNを用いた例
話者適応制限ボルツマンマシン(RBM)に基づくVC
課題
非パラレル化
パラレルデータは用意するのが大変なので無くしたい。
高速化
学習が必要になると遅い。もっと早く動かしたい。できれば実時間で。
カルマンフィルタを使った例があったような
変換精度
変換精度がよくないと、変換しているように聞こえない。目下の課題。
文献の少なさ
研究例が他に比べて少ない。まだまだやり残しがある。
犯罪への転用
なりすましを助長する危険性がある。これを防止する策も研究中らしい。
とはいっても、今の技術ではなりすませない。はっきりわかんだね。
VC実装で使用する機械学習メモ
VC