Descarga de emospeech - Descargar el código fuente emospeech

emospeech

Código Fuente de IA

1.0.0

Descargar

EMOSPEECH: Guiding FastSpeech2 hacia el texto emocional al habla

Cómo correr

Construir envanustado

Puede construir un entorno con Docker o Conda .

Para configurar el entorno con Docker

Si no tiene instalado Docker, siga los enlaces para encontrar instrucciones de instalación para Ubuntu, Mac o Windows.

Build Docker Imagen:

 docker build -t emospeech .

Ejecutar la imagen de Docker:

 bash run_docker.sh

Para configurar el entorno con conda

Si no tiene CondA instalado, busque las instrucciones de instalación para su sistema operativo aquí.

  conda create -n etts python=3.10
  conda activate etts
  pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117
  pip install -r requirements.txt

Si tiene una versión diferente de CUDA en su máquina, puede encontrar el enlace aplicable para la instalación de Pytorch aquí.

Descargar y preprocesar datos

Utilizamos datos de 10 hablantes de inglés del conjunto de datos ESD. Para descargar todos los archivos .wav , .txt junto con los archivos .TextGrid creados usando MFA:

  bash download_data.sh

Para capacitar a un modelo, necesitamos duraciones precomputadas, energía, tono y características de egemap. Desde el directorio src Run:

  python -m src.preprocess.preprocess

Así es como debería ser su carpeta de datos:

  .
  ├── data
  │   ├── ssw_esd
  │   ├── test_ids.txt
  │   ├── val_ids.txt
  └── └── preprocessed
          ├── duration
          ├── egemap
          ├── energy
          ├── mel
          ├── phones.json
          ├── pitch
          ├── stats.json
          ├── test.txt
          ├── train.txt
          ├── trimmed_wav
          └── val.txt

Capacitación

Configurar argumentos en config/config.py .
Ejecute python -m src.scripts.train .

Pruebas

Las pruebas se implementan en el subconjunto de pruebas del conjunto de datos ESD. Para sintetizar audio y calcular MOS neural (NISQA TTS):

Configurar argumentos en config/config.py en la sección Inference .
Ejecute python -m src.scripts.test .

Puede encontrar TTS NISQA para audio original, reconstruido y generado en test.log .

Inferencia

El emospeche está entrenado en secuencias de fonemas. Los teléfonos compatibles se pueden encontrar en data/preprocessed/phones.json . Este repositroy se crea para la investigación académica y no admite la conversión automática de grafema a fonema. Sin embargo, si desea sintetizar una oración arbitraria con condicionamiento emocional, puede:

Genere la secuencia de fonemas a partir de grafemas con MFA.
1.1 Siga la guía de instalación
1.2 Descargar English G2P Modelo: mfa model download g2p english_us_arpa
1.3 Generar Phoneme.txt de Graphemes.txt: mfa g2p graphemes.txt english_us_arpa phoneme.txt
Ejecutar python -m src.scripts.inference , especificando argumentos:

Enriqueza	Significado	Valores posibles	Valor predeterminado
`-sq`	Secuencia de fonema a Synthesisze	Encontrar en `data/phones.json` .	No establecido, argumento requerido.
`-emo`	Id de emoción de voz deseada	0: Neutral, 1: enojado, 2: feliz, 3: triste, 4: sorpresa.	1
`-sp`	Id de voz del altavoz	Del 1 al 10, corresponde a 0011 ... 0020 en la notación de ESD original.	5
`-p`	Ruta donde guardar audio sintetizado	Cualquiera con extensión `.wav` .	Generation_From_Phoneme_Sequence.wav

Por ejemplo

 python -m src.scripts.inference --sq "S P IY2 K ER1 F AY1 V  T AO1 K IH0 NG W IH0 TH AE1 NG G R IY0 IH0 M OW0 SH AH0 N"

Si el archivo de resultados no se sintetiza, verifique inference.log para teléfonos OOV.

Referencias

FastSpeech 2 - Implementación de Pytorch
ISTFTNET: Vocoder de espectrograma MEL rápido y ligero que incorpora transformación inverse de Fourier a corto plazo
Público de datos de discurso emocional disponible públicamente para la síntesis del habla y la conversión de voz
NISQA: Calidad del habla y evaluación de la naturalidad
Modelos de alineadores forzados de Montreal
Vocgan modificado
Adaspecha

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-08-25
tamaño 1.15MB
Proviene de Github

Aplicaciones relacionadas

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo