Notebook no inglés-tacotrón-2
Tacotron 2 Notebook de entrenamiento que apoya japonés, francés y mandarín
Descripción general
Este cuaderno está destinado a proporcionar un acceso más fácil a la capacitación de modelos Tacotron 2 en idiomas distintos al inglés. Actualmente, se incluyen los modelos japoneses (Talqu y Netalk Phonetics), franceses y mandarinas previos a los pretrados, pero el plan es incluir más en el futuro, como el alemán. Para el japonés, se recomienda usar la fonética y el modelo previamente previo a la aparición.
Audio compatible
El audio para la capacitación debe ser archivos MONO WAV de 22050Hz de 16 bits. No incluya espacios en los nombres de archivo. Los archivos solo deben incluir alfanuméricos (medio ancho), guiones y subrayos. Esto significa que no hay nombres de archivo japoneses o chinos, o diacríticos. Los clips de audio deben ser de 10 segundos o menos para facilitar el aprendizaje. Según mis pruebas, recomiendo tener al menos 15 minutos de audio.
Transcripciones
El archivo de transcripción debe ser un documento de texto con cada línea que tenga el siguiente formato: wavs/{name_of_file}.wav|{text} . Use uno de los G2P incluidos para convertir la transcripción a la entrada fonética apropiada.
Capacitación
Espero que los pasos en el cuaderno deben ser bastante autoexplicativos. Sube tu audio en la carpeta Wavs/ antes de comenzar a entrenar. Aquí hay algunas notas a tener en cuenta:
- El tamaño de lotes idealmente debería ser un factor de la cantidad de wavs que tiene. Por ejemplo, al entrenar un modelo con 15 Wavs, configuré el tamaño del lote en 5.
- Si tiene la GPU T4 en COLAB, no establezca el tamaño del lote superior a 14.
- El directorio de salida para el entrenamiento debe estar en Google Drive en caso de que se desconecte.
- Mientras entrena, los puntos de control se acumularán. Elimine los viejos y la basura vacía para mantener el almacenamiento de su unidad disponible.
- Deje de entrenar cuando llegue a una pérdida de validación adecuada. Por ejemplo, lo que hago es: menos de 30 archivos = bajo 0.07; 30-100 archivos = bajo 0.09; 150+ archivos = bajo 0.1; Más de 30 minutos de datos = menos de 0.14
Atribuciones
- Sistema fonético de Talqu por Haruqa (https://booth.pm/ja/items/27555336)
- Sistema fonético japonés de neutralk por neutrogic (https://github.com/neutrogic/neutalk)
- Modelo previo a Talqu por haruqa (https://github.com/haruqa/tacotron2/releases)
- Modelos previos a los pretrados de Neutalk Japanese and Mandarin por Neutrogic (https://github.com/neutrogic/neutalk)
- Modelo de petróleo francés creado por Mildemelwe y entrenado por Neutrogic (https://github.com/neutrogic)
- Basado en el código del cuaderno de entrenamiento UberDuck Tacotron 2 (https://colab.research.google.com/drive/1wtilmdm9vf7ke79gzkeetbigan6iv3bg?usp=SHaring)
- Implementación de Tacotron 2 por NVIDIA (https://github.com/nvidia/tacotron2)