speaker_adapted_tts
1.0.0
タコトロンとDCTTの私の実装を見て、多くの人が「神経TTSに必要な音声データセットがどれほど大きいか」と尋ねました。または「トレーニングデータのX時間/分(S)でTTSモデルを作成できますか?」私はそれらの質問の重要性を完全に知っています。 TTSを使用してサービスを計画する場合、必ずしも多くの音声サンプルを取得するとは限りません。答えをお願いします。私は本当にします。しかし、残念ながら私には答えがありません。私が知っている唯一のことは、ケイトウィンスレットのオーディオブックから抽出した5時間の音声サンプルでモデルを正常にトレーニングできることです。私はそれより少ないデータを試していません。試してみることができましたが、実際にはもっと良いアイデアがあります。 LJの音声データセットで数日間訓練されたまともなモデルがあるので、なぜそれを使用しないのですか?結局のところ、私たちは皆異なる声を持っていますが、英語を話す方法は完全に違いはありません。
上記の2つのレポでは、2人のお気に入りの有名人、ニックオファーマンとケイトウィンスレットのすべてのスピーチサンプルを使用してTTSモデルをトレーニングしました。今回は、音声サンプルの1分しか使用していません。以下は、10分間の微調整トレーニングの後の合成サンプルです。彼らは彼らのように聞こえると思いますか?
さらに、YouTubeからモダンファミリーの有名人の10個の音声サンプルを収集し、それらのサンプルをトレーニングする声を生み出しました。
ここでは、モデルの詳細、ソースコード、およびシードとして機能する前提条件のモデルを確認してください。