speaker_adapted_ttsダウンロードspeaker_adapted_ttsソースコードダウンロード

speaker_adapted_tts

AI ソースコード

1.0.0

ダウンロード

10分以内に1分間の音声サンプルでTTSモデルを作成する

タコトロンとDCTTの私の実装を見て、多くの人が「神経TTSに必要な音声データセットがどれほど大きいか」と尋ねました。または「トレーニングデータのX時間/分（S）でTTSモデルを作成できますか？」私はそれらの質問の重要性を完全に知っています。 TTSを使用してサービスを計画する場合、必ずしも多くの音声サンプルを取得するとは限りません。答えをお願いします。私は本当にします。しかし、残念ながら私には答えがありません。私が知っている唯一のことは、ケイトウィンスレットのオーディオブックから抽出した5時間の音声サンプルでモデルを正常にトレーニングできることです。私はそれより少ないデータを試していません。試してみることができましたが、実際にはもっと良いアイデアがあります。 LJの音声データセットで数日間訓練されたまともなモデルがあるので、なぜそれを使用しないのですか？結局のところ、私たちは皆異なる声を持っていますが、英語を話す方法は完全に違いはありません。

上記の2つのレポでは、2人のお気に入りの有名人、ニックオファーマンとケイトウィンスレットのすべてのスピーチサンプルを使用してTTSモデルをトレーニングしました。今回は、音声サンプルの1分しか使用していません。以下は、10分間の微調整トレーニングの後の合成サンプルです。彼らは彼らのように聞こえると思いますか？