Multi Tacotron Voice Cloning
1.0.0
このリポジトリは、リアルタイムボイスクローニングに基づく音素多言語(ロシア語 - 英語)の実装です。数秒のオーディオから音声の数値表現を作成し、テキストからスピーチモデルを条件付けるために、私たちにとって、4段階の深い学習フレームワークです。英語版が必要な場合は、元の実装を使用してください。
このリポジトリは、リアルタイムボイスクローニングに基づいた多言語(ロシア語と英語の)音素の実装です。これは、音声の数秒から音声の数値表現を作成し、それを使用してテキストを音声に変換するためのモデルを作成できる4つのニューラルネットワークで構成されています。
Colabオンラインデモを使用します
モデルを再訓練するためにのみ、ツールボックスを使用する予定の次のことが必要です。
≥python3.6 。
Pytorch(> = 1.0.1)。
pip install -r requirements.txtを実行して、必要なパッケージをインストールします。
GPUは必須ですが、ツールボックスを使用する場合は、必然的に高ティアGPUが必要です。
最新のGeereをダウンロードしてください。
| 名前 | 言語 | リンク | コメント | 私のリンク | コメント |
|---|---|---|---|---|---|
| 音素辞書 | en、ru | en、ru | 音素辞書 | リンク | ロシア語と英語の音声辞典を組み合わせた |
| Librispeech | en | リンク | 300人のスピーカー、360Hクリーンスピーチ | ||
| voxceleb | en | リンク | 7000のスピーカー、多くの時間の悪いスピーチ | ||
| m-ailabs | ru | リンク | 3人のスピーカー、46Hクリーンスピーチ | ||
| open_tts、open_stt | ru | open_tts、open_stt | 多くのスピーカー、多くの時間の悪いスピーチ | リンク | 1つのスピーカーの4時間のスピーチを掃除しました。最大7秒までセグメントに分割された感染を修正しました |
| VoxForge+オーディオブック | ru | リンク | 多くのスピーカー、25Hさまざまな品質 | リンク | 私は良いファイルを選びました。セグメントに侵入しました。インターネットからオーディオブックを追加しました。それぞれのために数分で200人のスピーカーが判明しました |
| ルスラン | ru | リンク | 1人のスピーカー、40h良いスピーチ | リンク | 16kHzで修正 |
| モジラ | ru | リンク | 50スピーカー、30h良いスピーチ | リンク | 16kHzでcarされ、さまざまなユーザーがフォルダーに散らばっていました |
| ロシアのシングル | ru | リンク | 1人のスピーカー、9h良いスピーチ | リンク | 16kHzで修正 |
ツールボックスを試すことができます:
python demo_toolbox.py -d <datasets_root>
またはpython demo_toolbox.py
前処理されたモデル
トレーニング(および他の言語用)
トレーニング(および他の言語用)
どんな質問でも、MEMにメールしてください
| URL | 指定 | タイトル | 実装ソース |
|---|---|---|---|
| 1806.04558 | sv2tts | スピーカーの検証からマルチスピーカーのテキストからスピーチへの合成への転送 | Corentinj |
| 1802.08435 | wavernn(ボコーダー) | 効率的なオーディオ合成 | Fatchord/Wavernn |
| 1712.05884 | タコトロン2(シンセサイザー) | MELスペクトログラム予測にWavenetを条件付けすることによる天然TTS合成 | Rayhane-Mamah/Tacotron-2 |
| 1710.10467 | GE2E(エンコーダ) | スピーカー検証のための一般的なエンドツーエンド損失 | Corentinj |