ZeroSpeech TTS without T Download - ZeroSpeech TTS without T Código fuente Descargar Descargar

ZeroSpeech TTS without T

Código Fuente de IA

1.0.0

Descargar

ZeroSpeech 2019: TTS sin t - Pytorch

Este es el código fuente original para el documento "Aprendizaje de extremo a extremo no supervisado de unidades lingüísticas discretas para la conversión de voz", que es aceptada por Interspeech 2019.
Además, utilizamos esta implementación para competir en el desafío ZeroseSpeech 2019. En la tabla de clasificación de conjuntos de datos sorpresa, el método propuesto es el ^segundo lugar en términos de tasa de bits baja , al tiempo que logran una puntuación de opinión media más alta (MOS) y un CER más bajo que el equipo de 1 ^ST Place .
Siéntase libre de usarlos o modificarlos, se agradecerá cualquier informe de error o sugerencia de mejora. Si tiene alguna pregunta, comuníquese con [email protected]. Si considera útil este proyecto para su investigación, considere para citar este documento, ¡gracias!

Comienzo rápido

Configuración

Clone This Repo: git clone [email protected]:andi611/ZeroSpeech-TTS-without-T.git
CD en este repositorio: cd ZeroSpeech-TTS-without-T

Instalación de dependencias

Instale Python 3.
Instale la última versión de Pytorch de acuerdo con su plataforma. Para un mejor rendimiento, instale con soporte de GPU (CUDA) si es viable. Este código funciona con Pytorch 0.4 y posterior.

Preparar datos

Descargue el conjunto de datos de Zerospeech.

El conjunto de datos en inglés:

 wget https://download.zerospeech.com/2019/english.tgz
tar xvfz english.tgz -C data
rm -f english.tgz

El conjunto de datos sorpresa:

 wget https://download.zerospeech.com/2019/surprise.zip
# Go to https://download.zerospeech.com  and accept the licence agreement 
# to get the password protecting the archive
unzip surprise.zip -d data
rm -f surprise.zip

Después de desempacar el conjunto de datos en ~/ZeroSpeech-TTS-without-T/data , Data Tree debería verse así:

 |- ZeroSpeech-TTS-without-T
	 |- data
		 |- english
			 |- train
			 	|- unit
			 	|- voice
			 |- test
		|- surprise
			 |- train
			 	|- unit
			 	|- voice
			 |- test

Preprocese el conjunto de datos y los archivos de índice listos para el modelo:
```
 python3 main.py --preprocess —-remake
```

Uso

Capacitación

Traine el modelo ASR-TTS Autoencoder para unidades lingüísticas discretas Descubrimiento:
```
 python3 main.py --train_ae
```
Los hiperparámetros sintonizables se pueden encontrar en HPS/ZEROSPEECH.JSON. Puede ajustar estos parámetros y la configuración editando el archivo, se recomiendan los hiperparámetros predeterminados para este proyecto.

Patcher TTS de trenes para el aumento del rendimiento de la conversión de voz:

 python3 main.py --train_p --load_model --load_train_model_name=model.pth-ae-400000

Patcher TTS de entrenar con entrenamiento adversario guiado con objetivo:

 python3 main.py --train_tgat --load_model --load_train_model_name=model.pth-ae-400000

Monitorear con TensorBoard (opcional)

 tensorboard --logdir='path to log dir'
or
python3 -m tensorboard.main --logdir='path to log dir'

Pruebas

Prueba en un solo discurso ::

 python3 main.py --test_single --load_test_model_name=model.pth-ae-200000

Pruebe en 'synthesis.txt' y genere archivos de audio resintesos ::

 python3 main.py --test --load_test_model_name=model.pth-ae-200000

Pruebe en todo el discurso de prueba en test/ y genere archivos de codificación ::
```
 python3 main.py --test_encode --load_test_model_name=model.pth-ae-200000
```

Agregar --enc_only si prueba solo con ASR-TTS Autoencoder:

 python3 main.py --test_single --load_test_model_name=model.pth-ae-200000 --enc_only
python3 main.py --test --load_test_model_name=model.pth-ae-200000 --enc_only
python3 main.py --test_encode --load_test_model_name=model.pth-ae-200000 --enc_only

Cambiar entre conjuntos de datos

Simplemente use --dataset=surprise para cambiar al conjunto alternativo predeterminado, todas las rutas se manejan automáticamente si la estructura del árbol de datos se coloca como se sugiere. Por ejemplo:
```
 python3 main.py --train_ae --dataset=surprise
```

Modelos entrenados

Proporcionamos modelos capacitados como archivos CKPT, enlace DonwLoad: bit.ly/zeroSpeech2019-liu
Reparar el modelo para el entrenamiento:
```
 --load_train_model_name=model.pth-ae-400000-128-multi-1024-english
```
( --ckpt_dir=./ckpt_english o --ckpt_dir=./ckpt_surprise por defecto).

2 formas de cargar el modelo para las pruebas:

 --load_test_model_name=model.pth-ae-400000-128-multi-1024-english (by name)
--ckpt_pth=ckpt/model.pth-ae-400000-128-multi-1024-english (direct path)

Cuidado que HPS/ZEROSPEECH.json debe establecerse en consecuencia al modelo que está cargando. Si se está cargando un modelo 128-multi-1024 , seg_len y enc_size deben establecerse en 128 y 1024, respectivamente. Si se está cargando un modelo ae , se debe usar el argumento --enc_only al ejecutar main.py (ver 4. En la sección de pruebas).

Notas

Este código incluye todas las configuraciones y métodos que hemos probado para este desafío, algunos de los cuales no se suman, pero no los eliminamos de nuestro código. Sin embargo, las instrucciones anteriores y la configuración predeterminada son para el método que propusimos. Al ejecutarlos, se puede reproducir fácilmente nuestros resultados.
TODO: Sube modelos previamente capacitados

Citación

 @article{Liu_2019,
   title={Unsupervised End-to-End Learning of Discrete Linguistic Units for Voice Conversion},
   url={http://dx.doi.org/10.21437/interspeech.2019-2048},
   DOI={10.21437/interspeech.2019-2048},
   journal={Interspeech 2019},
   publisher={ISCA},
   author={Liu, Andy T. and Hsu, Po-chun and Lee, Hung-Yi},
   year={2019},
   month={Sep}
}

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-08-24
tamaño 73.92MB
Proviene de Github

Aplicaciones relacionadas

F5 TTS ComfyUI

2024-11-02
Exclusivo 4K t

2024-06-13
kalos t

2024-05-26
T mi aplicación de vida

2023-09-12
Aplicación Asistente T

2023-08-18
Aplasta al zombi en Rebelde sin pulso

2022-08-24

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo