Ce référentiel est une implémentation phonémique multilingue (russe-anglais) basée sur la clonage en temps réel. Est un cadre d'apprentissage en profondeur en quatre étapes qui permet de créer une représentation numérique d'une voix à partir de quelques secondes d'audio, et pour nous pour conditionner un modèle de texte vocal. Si vous avez besoin de la version anglaise, veuillez utiliser l'implémentation originale.
Ce référentiel est une implémentation phonémique multilingue (russo-anglais) basée sur la clonage en temps réel. Il se compose de quatre réseaux de neurones qui vous permettent de créer une représentation numérique de la voix à partir de plusieurs secondes de son et de l'utiliser pour créer un modèle pour convertir le texte en parole
Utilisez la démo en ligne Colab
Vous aurez besoin de ce qui suit, ce que vous prévoyez d'utiliser la boîte à outils uniquement pour recycler les modèles.
≥python 3.6 .
Pytorch (> = 1.0.1).
Exécutez pip install -r requirements.txt pour installer les packages nécessaires.
Un GPU est obligatoire, mais vous n'avez pas nécessairement besoin d'un GPU de haut niveau si vous souhaitez utiliser la boîte à outils.
Téléchargez le dernier geere.
| NOM | Langue | Lien | Commentaires | Mon lien | Commentaires |
|---|---|---|---|---|---|
| Dictionnaire phonème | En, ru | En, ru | Dictionnaire phonème | Lien | Dictionnaire phonémique russe et anglais combiné |
| Bibliothèque | En | Lien | 300 haut-parleurs, discours propre 360h | ||
| Voxceleb | En | Lien | 7000 orateurs, plusieurs heures de mauvais discours | ||
| M-ailab | Ru | Lien | 3 haut-parleurs, discours propre 46h | ||
| Open_TTS, Open_STT | Ru | Open_TTS, Open_STT | Beaucoup de locuteurs, plusieurs heures de mauvais discours | Lien | Nettoyé 4 heures de discours d'un orateur. Corrigé l'anotation, divisé en segments jusqu'à 7 secondes |
| Voxforge + AUDIOBOOK | Ru | Lien | Beaucoup de conférenciers, 25h de qualité divers | Lien | J'ai choisi de bons fichiers. A fait irruption dans des segments. Ajout d'un livre audio sur Internet. Il s'est avéré 200 conférenciers quelques minutes pour chacun |
| Ruslan | Ru | Lien | Un orateur, 40h bon discours | Lien | Corrigé en 16 kHz |
| Mozilla | Ru | Lien | 50 conférenciers, 30h bon discours | Lien | Cadrer en 16 kHz, dispersé différents utilisateurs dans les dossiers |
| Single russe | Ru | Lien | Un orateur, 9h bon discours | Lien | Corrigé en 16 kHz |
Vous pouvez essayer la boîte à outils:
python demo_toolbox.py -d <datasets_root>
ou
python demo_toolbox.py
Modèles pré-entraînés
Formation (et pour d'autres langues)
Formation (et pour d'autres langues)
Pour toute question, veuillez envoyer un e-mail à mem
| URL | Désignation | Titre | Source d'implémentation |
|---|---|---|---|
| 1806.04558 | Sv2tts | Transférer l'apprentissage de la vérification des conférenciers à la synthèse de texte-vocation multippeaker | Corentinj |
| 1802.08435 | Wavernn (vocoder) | Synthèse audio efficace | Fatchord / wavernn |
| 1712.05884 | Tacotron 2 (synthétiseur) | Synthèse TTS naturelle en conditionnant les prédictions du wavenet sur le spectrogramme MEL | Rayhane-Mamah / Tacotron-2 |
| 1710.10467 | GE2E (Encodeur) | Perte généralisée de bout en bout pour la vérification des orateurs | Corentinj |