cs224n gpu that talks descarga - cs224n gpu that talks Descarga del código fuente

cs224n gpu that talks

Código Fuente de IA

1.0.0

Descargar

Atención, estoy tratando de hablar: síntesis del habla de extremo a extremo (CS224N '18)

Implementación de un modelo de texto a voz basado en SEQ2SEQ convolucional basado en Tachibana ET. Alabama. (2017). Dada una secuencia de caracteres, el modelo predice una secuencia de marcos de espectrograma en dos etapas (Text2Mel y SSRN).

Como se discutió en el informe, podemos obtener una calidad de audio bastante decente con Text2Mel capacitado para 60k pasos, SSRN para 100k pasos. Esto corresponde a aproximadamente (6+12) horas de entrenamiento en un solo GPU Tesla K80 en el conjunto de datos de discurso LJ.

Modelo previo a la aparición : [Descargar] Muestras : [Base-Modelo-M4] [Decodificador sin supervisión-M1]

Para más detalles, consulte: Documento de carteles

Uso:

Estructura de directorio

 - runs (contains checkpoints and params.json file for each different run. params.json specifies various hyperameters: see params-examples folder)
    - run1/params.json ...
 - src (implementation code package)
 - sentences (contains test sentences in .txt files)
 
train.py
evaluate.py
synthesize.py

../data (directory containing data in format below)
 - FOLDER
    - train.csv, val.csv (files containing [wav_file_name|transcript|normalized_trascript] as in LJ-Speech dataset)
    - wavs (folder containing corresponding .wav audio files)

Archivos de script

Ejecute cada archivo con python <script_file>.py -h para ver los detalles de uso.

 python train.py <PATH_PARAMS.JSON> <MODE>
python evaluate.py <PATH_PARAMS.JSON> <MODE> 
python synthesize.py <TEXT2MEL_PARAMS> <SSRN_PARAMS> <SENTENCES.txt> (<N_ITER> <SAMPLE_DIR>)

Cuadernos:

Evaluación : ejecuta predicciones del modelo en todos los conjuntos de capacitación y validación para diferentes puntos de control de modelos guardados y guarda los resultados finales.
Demo : escriba interactivamente las oraciones de entrada y escuche el audio de salida generado.

Más:

Capacitación en diferentes idiomas con menor cantidad de datos disponibles el conjunto de datos de los idiomas indios
Explorando el uso de métodos semi-supervisados para acelerar el entrenamiento, utilizando un 'modelo de lenguaje de audio' previamente capacitado como inicialización

Código externo referenciado:

(De SRC/ init .py) Se ha hecho referencia al código de utilidad de las siguientes fuentes, todo el otro código es el propio del autor:

src/data_load.py, dsp_utils.py (con modificaciones)
https://www.github.com/kyubyong/dc_tts, (autor: Kyubyong Park, @kyubyong) https://github.com/r9y9/deepvoice3_pytorch/blob/aster/audio.py (autor: @r9y9)
src/spsi.py (referenciado)
https://github.com/lonce/spsi_python (autor: @lonce)
src/utils.py (referenciado)
https://github.com/cs230-stanford/cs230-code-examples https://www.github.com/kyubyong/dc_tts https://github.com/tensorflow/tensor2tensor/blob/master/tensor2tensororers/common_attention.

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-09-15
tamaño 1.72MB
Proviene de Github

Aplicaciones relacionadas

zkwork_aleo_gpu_worker

2024-11-11
Esa no es la versión china de mi vecino.

2024-05-14
Esa no es la versión móvil de mi vecino.

2024-03-04
Ese no es el juego de terror de mi vecino.

2024-03-04
Ese no es el juego de mi vecino.

2024-02-25
toma eso

2022-08-15

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo