Download de emospeech - download do código -fonte emospeech

emospeech

Código-Fonte de IA

1.0.0

Baixar

Emospech: Orientando o FastSpeech2 para o texto emocional para a fala

Como correr

Construir Env

Você pode construir um ambiente com Docker ou Conda .

Para configurar o ambiente com o Docker

Se você não tiver instalado o Docker, siga os links para encontrar instruções de instalação para o Ubuntu, Mac ou Windows.

Construa a imagem do Docker:

 docker build -t emospeech .

Execute a imagem do Docker:

 bash run_docker.sh

Para configurar o ambiente com conda

Se você não tiver o CONDA instalado, encontre as instruções de instalação para o seu sistema operacional aqui.

  conda create -n etts python=3.10
  conda activate etts
  pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117
  pip install -r requirements.txt

Se você tiver uma versão diferente do CUDA em sua máquina, poderá encontrar o link aplicável para a instalação do Pytorch aqui.

Download e pré -processamento dados

Utilizamos dados de 10 falantes de inglês do conjunto de dados ESD. Para baixar todos os arquivos .wav , .txt junto com arquivos .TextGrid criados usando o MFA:

  bash download_data.sh

Para treinar um modelo, precisamos de durações pré -computadas, energia, arremesso e recursos do EGEMAP. Do diretório src Run:

  python -m src.preprocess.preprocess

É assim que sua pasta de dados deve parecer:

  .
  ├── data
  │   ├── ssw_esd
  │   ├── test_ids.txt
  │   ├── val_ids.txt
  └── └── preprocessed
          ├── duration
          ├── egemap
          ├── energy
          ├── mel
          ├── phones.json
          ├── pitch
          ├── stats.json
          ├── test.txt
          ├── train.txt
          ├── trimmed_wav
          └── val.txt

Treinamento

Configure argumentos em config/config.py .
Execute python -m src.scripts.train .

Teste

Os testes são implementados no subconjunto de teste do conjunto de dados ESD. Para sintetizar o áudio e calcular os MOS neurais (NISQA TTS):

Configure argumentos na seção config/config.py na Inference .
Execute python -m src.scripts.test .

Você pode encontrar o NISQA TTS para áudio original, reconstruído e gerado em test.log .

Inferência

A emospech é treinada em sequências de fonemas. Os telefones suportados podem ser encontrados em data/preprocessed/phones.json . Este repositroy é criado para pesquisas acadêmicas e não suporta conversão automática de grafema em phonema. No entanto, se você deseja sintetizar a frase arbitrária com condicionamento de emoções, pode:

Gerar sequência de fonemas a partir de grafemas com MFA.
1.1 Siga o guia de instalação
1.2 Download de inglês G2P Modelo: mfa model download g2p english_us_arpa
1.3 gerar phoneme.txt a partir de graphemes.txt: mfa g2p graphemes.txt english_us_arpa phoneme.txt
Run python -m src.scripts.inference , especificando argumentos:

ARMGEM	Significado	Valores possíveis	Valor padrão
`-sq`	Sequência de fonemas para Synthesisze	Encontre em `data/phones.json` .	Não definido, argumento necessário.
`-emo`	Id da emoção de voz desejada	0: Neutro, 1: Angry, 2: feliz, 3: triste, 4: surpresa.	1
`-sp`	ID da voz do alto -falante	De 1 a 10, corresponda a 0011 ... 0020 na notação original de ESD.	5
`-p`	Caminho onde salvar áudio sintetizado	Qualquer uma com extensão `.wav` .	generation_from_phoneme_sequence.wav

Por exemplo

 python -m src.scripts.inference --sq "S P IY2 K ER1 F AY1 V  T AO1 K IH0 NG W IH0 TH AE1 NG G R IY0 IH0 M OW0 SH AH0 N"

Se o arquivo de resultado não estiver sintetizado, verifique inference.log para os telefones Oov.

Referências

FastSpeech 2 - Implementação de Pytorch
ISTFTNET: Vocoder de espectro do espectro do MEL de Mel, incorporando transformada inversa de Fourier de curto tempo
Conjunto de fala emocional disponível publicamente (ESD) para síntese de fala e conversão de voz
NISQA: Avaliação da qualidade e naturalidade da fala
Modelos Alinhadores Forçados de Montreal
Vocgan modificado
AdesasEech

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-08-25
tamanho 1.15MB
Vindo de Github

Aplicativos Relacionados

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos