Non-anglais non-anglais
Carnet de formation Tacotron 2 soutenant le japonais, le français et le mandarin
Aperçu
Ce cahier est destiné à fournir un accès plus facile à la formation des modèles Tacotron 2 dans des langues autres que l'anglais. Actuellement, les modèles japonais (talqu et neutral phonétique), français et mandarin sont inclus, mais le plan est d'inclure davantage à l'avenir, comme l'allemand. Pour le japonais, il est recommandé d'utiliser la phonétique neutre et le modèle pré-entraîné.
Audio pris en charge
L'audio pour la formation doit être des fichiers MONO WAV à 16 bits 22050Hz. N'incluez pas les espaces dans les noms de fichiers. Les fichiers ne doivent inclure que les alphanumériques (demi-largeur), les tirets et les soulignements. Cela signifie pas de noms de fichiers japonais ou chinois, ni diacritiques. Les clips audio doivent être de 10 secondes ou moins pour faciliter l'apprentissage. Sur la base de mes tests, je recommande d'avoir au moins 15 minutes d'audio.
Transcriptions
Le fichier de transcription doit être un document texte avec chaque ligne ayant le format suivant: wavs/{name_of_file}.wav|{text} . Utilisez l'un des G2Ps inclus pour convertir la transcription en entrée phonétique appropriée.
Entraînement
Les étapes du cahier devraient être plutôt explanites, j'espère. Téléchargez votre audio dans le dossier WAVS / avant de commencer la formation. Voici quelques notes à garder à l'esprit:
- La taille du lot devrait idéalement être un facteur de la quantité de vagues que vous avez. Par exemple, lors de la formation d'un modèle avec 15 wavs, j'ai réglé la taille du lot sur 5.
- Si vous avez le GPU T4 sur Colab, ne réglez pas la taille du lot supérieur à 14.
- Le répertoire de sortie pour la formation devrait être dans Google Drive au cas où vous seriez déconnecté.
- Lorsque vous vous entraînez, les points de contrôle s'accumuleront. Supprimez les anciennes et videz les déchets pour garder votre stockage de lecteur disponible.
- Arrêtez une formation lorsque vous arrivez à une perte de validation appropriée. Par exemple, ce que je fais est: moins de 30 fichiers = moins de 0,07; 30-100 fichiers = moins de 0,09; 150+ fichiers = moins de 0,1; plus de 30 minutes de données = moins de 0,14
Attributions
- Système phonétique talqu par Haruqa (https://booth.pm/ja/items/2755336)
- Neutal Système phonétique japonais par Neutrogic (https://github.com/Neutrogic/Neutalk)
- Modèle prétrainé par talqu par Haruqa (https://github.com/haruqa/tacotron2/releases)
- Modèles pré-entraînés en japonais et mandarin de neutral (https://github.com/neutrogic/Neutalk)
- Modèle français pré-entraîné créé par Mildemelwe et formé par Neutrogic (https://github.com/Neutrogic)
- Basé sur le code du cahier de formation UberDuck Tacotron 2 (https://colab.research.google.com/drive/1wtilmdm9vf7ke79gzkeetbigan6iv3bg?usp=sharing)
- Implémentation de Tacotron 2 par Nvidia (https://github.com/nvidia/tacotron2)