Neural Voice Cloning With Few Samplesダウンロード - Neural Voice Cloning With Few Samplesソースコードダウンロード

Neural Voice Cloning With Few Samples

AI ソースコード

1.0.0

ダウンロード

ステータス：アーカイブ（コードが提供され、更新は予想されません）

ニューラルボイスクローニングとフェューサンプル

私たちは、コンテンツに依存しないスピーカーの声をクローン化しようとしています。これは、彼らが話すコンテンツではなく、スピーカーの身元を包む必要があることを意味します。スピーカーをさまざまなスピーカー用に埋め込むことにより、これを実行しようとします。

スピーカーの埋め込みは、スピーカーのアイデンティティ（スピーカーのピッチ、アクセントなどの声のさまざまな側面）を表現しようとします。これをスピーカーの音声指紋と見なすことができます。

私たちは今、私たちの実装のために次の論文を参照しています： -

バイドゥによる「サンプルの少ない神経音声クローニング」

状態

マルチスピーカー生成およびスピーカーエンコーダーモデルのアーキテクチャが構築されています。

Multi-Speaker Generative Modelは、VCTK-Datasetを使用して84のスピーカーのスピーカー適応のために訓練されており、190000エポックのNVIDIA-V100 GPUで完了しました。

スピーカーの採用

VCTKデータセットはトレーニングとテストのために分割されました。84人のスピーカーがマルチスピーカーモデルのトレーニングに使用され、検証用の8人のスピーカー、クローニング用の16人のスピーカーが使用されます。

スピーカーの採用のためのトレーニング

以下は、データセット内の最初の84人のスピーカーでモデルをトレーニングします。

 python speaker_adaptation.py --data-root=<path_of_vctk_dataset> --checkpoint-dir=<path> --checkpoint-interval=<int>

GPUを使用して最大20時間かかる場合があります。

最初のトレーニング後にモデルを特定のスピーカーに適応させる

 python speaker_adaptation.py --data-root=<path_of_vctk_dataset> --restore-parts=<path_of_checkpoint> --checkpoint-dir=<path> --checkpoint-interval=<int>

これには平均10〜20分かかります。

いくつかのクローン声

これまでのところ、スピーカー適応リンクを使用しているコーン声のいくつか

謝辞

マルチスピーカー生成モデルの実装は、https：//github.com/r9y9/deepvoice3_pytorchからインスピレーションを受けました
サンプルが少ない神経音声クローニング

引用

リポジトリ内のコードが便利だと思う場合は、以下を使用して引用してください。

 @misc{chitlangia2021voicecloning,
  author = {Chitlangia, Sharad and Rastogi, Mehul and Ganguly, Rijul},
  title = {An Open Source Implementation of Neural Voice Cloning With Few Samples},
  year = {2021},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {Available at url{https://github.com/SforAiDl/Neural-Voice-Cloning-With-Few-Samples/} or url{https://github.com/Sharad24/Neural-Voice-Cloning-With-Few-Samples/}},
}

拡大する

追加情報