ステータス:アーカイブ(コードが提供され、更新は予想されません)
私たちは、コンテンツに依存しないスピーカーの声をクローン化しようとしています。これは、彼らが話すコンテンツではなく、スピーカーの身元を包む必要があることを意味します。スピーカーをさまざまなスピーカー用に埋め込むことにより、これを実行しようとします。
スピーカーの埋め込みは、スピーカーのアイデンティティ(スピーカーのピッチ、アクセントなどの声のさまざまな側面)を表現しようとします。これをスピーカーの音声指紋と見なすことができます。
私たちは今、私たちの実装のために次の論文を参照しています: -
マルチスピーカー生成およびスピーカーエンコーダーモデルのアーキテクチャが構築されています。
Multi-Speaker Generative Modelは、VCTK-Datasetを使用して84のスピーカーのスピーカー適応のために訓練されており、190000エポックのNVIDIA-V100 GPUで完了しました。
VCTKデータセットはトレーニングとテストのために分割されました。84人のスピーカーがマルチスピーカーモデルのトレーニングに使用され、検証用の8人のスピーカー、クローニング用の16人のスピーカーが使用されます。
以下は、データセット内の最初の84人のスピーカーでモデルをトレーニングします。
python speaker_adaptation.py --data-root=<path_of_vctk_dataset> --checkpoint-dir=<path> --checkpoint-interval=<int>
GPUを使用して最大20時間かかる場合があります。
最初のトレーニング後にモデルを特定のスピーカーに適応させる
python speaker_adaptation.py --data-root=<path_of_vctk_dataset> --restore-parts=<path_of_checkpoint> --checkpoint-dir=<path> --checkpoint-interval=<int>
これには平均10〜20分かかります。
これまでのところ、スピーカー適応リンクを使用しているコーン声のいくつか
マルチスピーカー生成モデルの実装は、https://github.com/r9y9/deepvoice3_pytorchからインスピレーションを受けました
サンプルが少ない神経音声クローニング
リポジトリ内のコードが便利だと思う場合は、以下を使用して引用してください。
@misc{chitlangia2021voicecloning,
author = {Chitlangia, Sharad and Rastogi, Mehul and Ganguly, Rijul},
title = {An Open Source Implementation of Neural Voice Cloning With Few Samples},
year = {2021},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {Available at url{https://github.com/SforAiDl/Neural-Voice-Cloning-With-Few-Samples/} or url{https://github.com/Sharad24/Neural-Voice-Cloning-With-Few-Samples/}},
}