Chinois-fastspeech2
Sur la base des données vocales féminines standard de Biaobei Chinois, le modèle FastSpeech2 de l'article d'origine a été amélioré, et le module de représentation rythmique et de prédiction du rythme a été introduit pour rendre la prononciation chinoise plus vive et rythmique
Mise à jour 20230402
- 1. Ajouter le code de formation du modèle rythmique, dans le répertoire de BertProsody
- 2. Ajouter le code de prétraitement pour la formation du modèle rythmique (pour les données de coquille standard, le code n'a pas été trié, première version), dans PRÉPROCESSEUR / BIAOBEI.PY
Échantillon
Reportez-vous à l'audio généré dans des échantillons
Fichier de modèle
La structure principale de ce projet est la structure FastSpeech2 + Hifigan. De plus, le vecteur rythmique du texte chinois est introduit au stade d'entrée. Par conséquent, il existe trois modèles: FastSpeech_Model, HIFIGAN_MODEL, Prosody_Model (lien de disque net, code d'extraction: QGPI). Après le téléchargement, placez le fichier modèle dans le répertoire spécifié:
- 8000.PTH.TAR ---> OUTPUT / CKPT / BIAOBEI /
- générateur_universal.pth.tar ---> HIFIGAN /
- best_model.pt ---> transformateur / prosody_model /
prédire
Deux méthodes de prédiction sont fournies: 1) Python synthétisé_all.py; 2) Appel d'interface HTTP
- La première méthode est interactive . Après l'exécution de Python synthesize_all.py sur la ligne de commande, entrez le texte qui doit être converti. Après l'exécution, le fichier tmp.wav sera généré dans le code dans le répertoire de travail actuel;
- La deuxième méthode consiste à appeler l'API , exécuter tts_server.py, qui démarrera l'interface vocale à texte. Si vous appelez cette interface, vous pouvez vous référer à TestServer.py. Le même fichier audio généré (TMP.WAV) sera enregistré dans le répertoire de travail actuel.
former
- Étant donné que ce projet fait référence au projet FastSpeech2, si vous souhaitez personnaliser la formation, le projet fournit une méthode de formation plus détaillée pour référence;
- Ce projet a fait quelques optimisations à la méthode d'origine. Pour la partie d'optimisation, veuillez vous référer au blog: synthèse de la parole chinoise basée sur l'optimisation FastSpeech2
Ce projet est une tentative de faire de la synthèse de la parole des intérêts personnels. Tout le monde est invité à critiquer et à me corriger et à communiquer plus!