TTS-DATASET-PROMPTS
[大部分が放棄された、ごめんなさい!]
このリポジトリは、自分の声をクローン化しようとしている人々のためのまともな一連の文章になることを目的としています(たとえば、タコトロン2を使用)。
50行の各セットは、次の基準を満たすことを目指しています。
- CMudictによると、各音素は少なくとも1回表現されています(母音の異なるストレスのあるバージョンは別々の音素としてカウントされます。子音は2回存在する必要があります)
- 各音素は、定期的なスピーチと同じくらい頻繁に行われます(音素がバッチに4回しか存在しない場合を除き、Moby Dickに存在する頻度の50%から150%)
- 話された場合、すべての行はほぼ等しい長さです(14-18音節 +ファイナル句読点)
- コンテキスト依存性の発音を持つ単語(
theの非常に一般的なものを除く)は、処理を容易にするために回避されます - 少なくとも10行にコンマが含まれています
- 少なくとも10行は複数の短い文で構成されています(AIが自然に一時停止することを学ぶ)
同じルールに従って、質問と感嘆符のプロンプトのために追加のテキストファイルが提供されます。一部のテキストからスピーチへのアーキテクチャは、文のイントネーションに影響を与える句読点の終了をうまく処理しないため、分離されています。 Talquが推奨し、Mekatronサービスのいくつかの声で行われたように、これらを使用して別のモデルをトレーニングすることが有益かもしれません(Defunct)。
このレポは、G2P-ENライブラリを使用して、Uberduckの音声化に合わせて音素数を決定します。
その他の良いプロンプトセット
- (多言語!)Microsoft CustomVoiceの例のスクリプト(すべてのプロンプトリストが適切に設計されているわけではありません。
- 虹の通路と祖父の通路(音声的に完全)
- CMU ARCTICプロンプトリスト(音声でバランスが取れていますが、1行ごとに1文のみ)
- Mocha-Timit(「英語の主要な接続された音声プロセスを含めるように設計されています(例:同化、弱い形式..)」)
- Timit(ほとんどがランダムな文章の山)
- (多言語!)一般的な音声文章(まったく音声的にバランスが取れていない、非常に短い)
- ljspeechの転写産物(文の断片がたくさんありますが、これは個人的に有用だと思います)
- ハーバードの文章(音声的にバランスが取れていますが、行ごとに1つの文だけで、それらはすべて等しい長さです)
- Vits-Fast-Fine-Tuningリスト(英語と中国語の両方ですが、非常に短い文と文法は完璧ではありません)