VITS2
近年、単段音声合成モデルが盛んに研究されており、その結果は2段パイプラインシステムを凌駕している。これまでの1段音声合成モデルは大きな進歩を遂げたが、断続的な不自然さ、計算効率、音素変換への強い依存性などの点で改善の余地がある。本研究では、従来の音声合成モデルのいくつかの点を改善することで、より自然な音声を効率的に合成する単一段階音声合成モデルVITS2を紹介する。我々は、改良された構造と学習メカニズムを提案し、提案された方法が、自然さ、複数話者モデルにおける音声特性の類似性、学習と推論の効率性を改善するのに有効であることを示す。さらに、従来の研究における音素変換への強い依存が、完全にエンドツーエンドのシングルステージアプローチを可能にする我々の手法によって大幅に低減できることを示す。