El texto a la voz (TTS) ha visto recientemente un gran progreso en la sintetización del habla de alta calidad debido al rápido desarrollo de los sistemas TTS paralelos, pero producir discurso con variaciones prosódicas naturalistas, estilos de habla y tonos emocionales sigue siendo desafiante. Además, dado que la duración y el discurso se generan por separado, los modelos TTS paralelos todavía tienen problemas para encontrar las mejores alineaciones monotónicas que son cruciales para la síntesis naturalista del habla. Aquí, proponemos a Styletts, un modelo generativo basado en estilo para TTS paralelos que pueden sintetizar diversos discursos con prosodia natural a partir de una expresión del habla de referencia. Con un nuevo alineador monotónico transferible (TMA) y esquemas de aumento de datos invariantes de duración, nuestro método supera significativamente a los modelos de vanguardia en conjuntos de datos de un solo y múltiple en los conjuntos de datos subjetivos de naturalidad del habla y similitud de altavoces. A través del aprendizaje auto-supervisado de los estilos de habla, nuestro modelo puede sintetizar el habla con el mismo tono prosódico y emocional que cualquier discurso de referencia dado sin la necesidad de etiquetar explícitamente estas categorías.
Documento: https://arxiv.org/abs/2107.10394
Muestras de audio: https://styletts.github.io/
git clone https://github.com/yl4579/StyleTTS.git
cd StyleTTSpip install SoundFile torchaudio munch torch pydub pyyaml librosa git+https://github.com/resemble-ai/monotonic_align.gitEntrenamiento en la primera etapa:
python train_first.py --config_path ./Configs/config.ymlEntrenamiento en la segunda etapa:
python train_second.py --config_path ./Configs/config.yml Puede correr tanto consecutivamente y entrenará tanto la primera como la segunda etapa. El modelo se guardará en el formato "EPOCH_1ST_%05D.PTH" y "EPOCH_2ND_%05D.PTH". Los puntos de control y los registros de Tensorboard se guardarán en log_dir .
El formato de lista de datos debe ser filename.wav|transcription , consulte val_list_libritts.txt como un ejemplo.
Consulte la inferencia.ipynb para obtener más detalles.
Los Styletts y Hifi-Gan en LJSpeech Corpus en 24 kHz se pueden descargar en el enlace de Styletts y Hifi-Gan Link.
Los Styletts y Hifi-Gan en Libritts Corpus se pueden descargar en el enlace Styletts y el enlace Hifi-Gan. También debe descargar Test-Clean desde Libritts si desea ejecutar la demostración de cero-shot.
Descomprima los Models y Vocoder respectivo y ejecute cada celda en el cuaderno. También deberá instalar Phonemizer para ejecutar esta demostración de inferencia.
Los modelos de alineador de texto y extractores de tono previos a la aparición se proporcionan en la carpeta Utils . Tanto el alineador de texto como los modelos extractores de tono están entrenados con melspectrograms preprocesados usando meldataset.py.
Puede editar el Meldataset.py con su propio preprocesamiento de melspectrogram, pero los modelos previos a los practicados ya no funcionarán. Deberá entrenar su propio alineador de texto y extractor de tono con el nuevo preprocesamiento.
El código para capacitar al nuevo modelo de alineador de texto está disponible aquí y para entrenar nuevos modelos de extractores de tono está disponible aquí.
Proporcionaré más recepias con el preprocesamiento existente como los de Hifigan y ESPNet oficial en el futuro si tengo tiempo extra. Si está dispuesto a ayudar, no dude en hacer recepciones con ESPNet.