Descargar CS Tacotron Pytorch - CS Tacotron Pytorch Código fuente de descarga

CS Tacotron Pytorch

Código Fuente de IA

1.0.0

Descargar

Cs-tacotrón

Una implementación de Pytorch de CS-Tacotron, una síntesis del habla que cambia de código, el modelo TTS generativo de extremo a extremo basado en Tacotron. Para una versión regular de Tacotron, consulte este repositorio.

Introducción

Con el amplio éxito de los modelos recientes de texto a voz de aprendizaje automático (TTS), los resultados prometedores sobre la sintetización del habla realista han demostrado la capacidad de la máquina de sintetizar voces similares a los humanos. Sin embargo, se han realizado pocos progresos en el dominio de la síntesis de texto a voz de código inglés-inglés, donde la máquina debe aprender a manejar la entrada y la salida de manera multilingüe. El cambio de código ocurre cuando un hablante alterna entre dos o más idiomas, hoy en día las personas se comunican en los idiomas de cambio de código en la vida cotidiana, por lo tanto, las tecnologías de lenguaje habladas como TTS deben desarrollarse para manejar la entrada y salida multilingües.

En este trabajo, presentamos Tacotron de cambio de código, que se construye en función del modelo generativo de texto a discurso de última generación (Wang et al., 2017). CS-Tacotron es capaz de sintetizar el habla de cambio de código condicionado en el texto CS sin procesar. Dados el texto de CS y los pares de audio, nuestro modelo puede ser entrenado de extremo a extremo con el preprocesamiento de datos adecuado. Además, capacitamos a nuestro modelo en el conjunto de datos de conferencias, un conjunto de datos basado en conferencias de código inglés-inglés, que se origina en el procesamiento de señales digitales (DSP) del curso que se ofrece en la Universidad Nacional de Taiwán (NTU). Presentamos varias técnicas de implementación clave para que el modelo Tacotron funcione bien en esta desafiante tarea multilingüe de generación de voz. CS-Tacotron posee la capacidad de generar discurso CS a partir del texto CS, y habla vívidamente con el estilo del altavoz de LecturedSP.

Consulte Report.pdf para obtener más detalles de este trabajo.

¡Las solicitudes de extracción son bienvenidas!

Manifestación

Muestras de audio de CS-Tacotron. Todas las frases a continuación no se ven durante el entrenamiento.

Si está leyendo esto en GitHub, visite nuestra página GitHub para que las barras de audio se muestren correctamente.
Los archivos de audio y sus correspondientes <gráficos de espectrograma / alineación> también se pueden encontrar en el resultado /.

CS-Tacotron funciona bien en las entradas chinas monolingües.

- "這是數位語音處理"
- "今天天氣很好"
- "歡迎來到台灣大學"
- "歡迎來到語音處理實驗室"
- "吃什麼好呢"

CS-Tacotron funciona bien en las entradas mixlinguales chinas-inglés .

- "每天都要 feliz"
- "這是語音處理 Procesamiento"
- "你可以多使用 Google"
- "Año nuevo 新氣象"
- "這是個好 Problema"

CS-Tacotron también puede ADPAT a algunas entradas de inglés monolingües fuera de dominio ,

A pesar del hecho de que ninguno de los datos de capacitación contiene oración completa en inglés.
- "Taiwán número uno"
- "Tienes algún problema"

Comienzo rápido

Instalación de dependencias

Instale Python 3.
Instale la última versión de Pytorch de acuerdo con su plataforma. Para un mejor rendimiento, instale con soporte de GPU (CUDA) si es viable. Este código funciona con Pytorch 1.0 y posterior.
(Opcional) Instale la última versión de TensorFlow de acuerdo con su plataforma. Esto puede ser opcional, pero por ahora requerido para el procesamiento del habla.
Requisitos de instalación:
```
 pip3 install -r requirements.txt
```
ADVERTENCIA: Debe instalar Torch y TensorFlow / TensorFlow-GPU dependiendo de su plataforma. Aquí enumeramos la versión Pytorch y TensorFlow que usamos cuando construimos este proyecto.

Usando un modelo previamente capacitado

Ejecute el entorno de prueba con modo interactivo :

 python3 test.py --interactive --plot --long_input --model 470000

Ejecute el algoritmo de prueba en un conjunto de transcripciones (los resultados se pueden encontrar en el directorio resultado/480000):
```
 python3 test.py --plot --model 480000 --test_file_path ../data/text/test_sample.txt
 * '--long_input' is optional to add
```

Capacitación

Nota: Entrenamos nuestro modelo en nuestro propio conjunto de datos: Lecturedsp. Actualmente, este conjunto de datos no está disponible para el lanzamiento público y sigue siendo una colección privada en el laboratorio. Consulte 'Report.pdf' para obtener más información sobre este conjunto de datos.

Descargue un conjunto de datos de cambio de código de su elección.
Desempaqué el conjunto de datos en ~/data/text y ~/data/audio .
Después de desempacar, su árbol de datos debe verse así para que funcionen las rutas predeterminadas:
```
 ./CS-Tacotron
 |- data
	 |- text
	 	|- train_sample.txt
	 	|- test_sample.txt
	 |- audio
	 	|- sample 
	 		|- audio_sample_*.wav
	 		|- ...
```

Nota: Para la siguiente sección, establezca las rutas de acuerdo con los nombres de archivo de su conjunto de datos, esto es solo una demostración de algunos datos de muestra. El formato de su conjunto de datos debe coincidir con los datos de muestra proporcionados para que este código funcione.

Preprocese los datos de texto utilizando src/preprocess.py:

 python3 preprocess.py --mode text --text_input_raw_path ../data/text/train_sample.txt --text_pinyin_path '../data/text/train_sample_pinyin.txt'

Preprocese los datos de audio utilizando src/preprocess.py:

 python3 preprocess.py --mode audio --audio_input_dir ../data/audio/sample/ --audio_output_dir ../data/audio/sample_processed/ --visualization_dir ../data/audio/sample_visualization/

Visualización de las diferencias de preprocesamiento de audio:

Realice los meta archivos listos para el modelo de texto y audio usando src/preprocess.py:

 python3 preprocess.py --mode meta --text_pinyin_path ../data/text/train_sample_pinyin.txt --audio_output_dir ../data/audio/sample_processed/

Entrena un modelo con SRC/Train.py
```
 python3 train.py
```
Los hiperparámetros sintonizables se encuentran en src/config.py. Puede ajustar estos parámetros y configuración editando el archivo. Se recomiendan los hiperparámetros predeterminados para conferencias y otros datos de conmutación de código chino-inglés.
Monitorear con TensorBoardX (opcional)
```
 tensorboard --logdir 'path to log dir'
```
El entrenador arroja audio y alineaciones cada 2000 pasos por defecto. Puede encontrarlos en CS-tacotron/ckpt .

Reconocimiento

Nos gustaría dar crédito al trabajo de Ryuichi Yamamoto, una maravillosa implementación de Pytorch de Tacotron, en la que principalmente basamos nuestro trabajo.

Alineación

Mostramos el gráfico de alineación de la fase de prueba de nuestro modelo, donde el primero muestra la alineación de la entrada china monolingüe, la segunda es la entrada de cambio de código chino-inglés, y el tercero es la entrada de inglés monolingüe, respectivamente.

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-08-25
tamaño 158.14MB
Proviene de Github

Aplicaciones relacionadas

pytorch image models

2024-11-03
cs dlp

2024-11-01
Versión móvil del juego CS Contract Sniper

2024-06-09
Counter Terrorist Strike CS versión china versión móvil

2023-12-11
CS WgE

2023-05-15
Tutorial estándar de Illustrator CS

2009-06-10

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo