VITS
https://qiita.com/zassou65535/items/00d7d5562711b89689a8
GAN
がある
VITSで用いられている
flow
は、学習時はzと話者idの情報を入力にとり、zから話者の情報をできるだけ取り除き、発音に関する情報zpを抽出する役割を果たします。
「Conditional Variational Autoencoder」の名前の通り、VITSは確率的に埋め込みを行うVAEのような性質を持っており、
スペクトログラムを潜在変数へと落とす
VAE
と、
テキスト-潜在変数間の変換を確率的な埋め込みを経由して行うEncoder(Transformer)Decoder(flow)の二段構造になっています。
https://zenn.dev/tonimono/articles/5c35e87a29af15
Text to speech