Download de NATSpeech - Download de código fonte NATSpeech

NATSpeech

Código-Fonte de IA

v0.1

Baixar

Natspeech: uma estrutura de texto para fala não autorregressiva

| | 中文文档

Este repo contém a implementação oficial de Pytorch de:

PortasPaseech: portátil e de alta qualidade Texto-fala (Neurips 2021)
Página de demonstração | Huggingface? Demonstração
Diffsinger: Síntese de voz de canto via mecanismo de difusão superficial (DiffSpeech) (AAAI 2022)
Página de demonstração | Página do projeto | Huggingface? Demonstração

Principais recursos

Implementamos os seguintes recursos nesta estrutura:

Processamento de dados para o texto em fala não autorregressivo usando o alinhador forçado de Montreal.
Estrutura conveniente e escalável para treinamento e inferência.
Implementação de conjunto de dados de acesso aleatório simples, mas eficiente.

Instalar dependências

 # # We tested on Linux/Ubuntu 18.04. 
# # Install Python 3.6+ first (Anaconda recommended).

export PYTHONPATH=.
# build a virtual env (recommended).
python -m venv venv
source venv/bin/activate
# install requirements.
pip install -U pip
pip install Cython numpy==1.19.1
pip install torch==1.9.0 # torch >= 1.9.0 recommended
pip install -r requirements.txt
sudo apt install -y sox libsox-fmt-mp3
bash mfa_usr/install_mfa.sh # install forced alignment tool

Documentos

Sobre a estrutura
Execute o portasPaseech
Execute diffSpeech

Citação

Se você achar isso útil para sua pesquisa, cite os seguintes trabalhos:

PortasPaseech

 @article { ren2021portaspeech ,
  title = { PortaSpeech: Portable and High-Quality Generative Text-to-Speech } ,
  author = { Ren, Yi and Liu, Jinglin and Zhao, Zhou } ,
  journal = { Advances in Neural Information Processing Systems } ,
  volume = { 34 } ,
  year = { 2021 }
}

DiffSpeech

 @article { liu2021diffsinger ,
  title = { Diffsinger: Singing voice synthesis via shallow diffusion mechanism } ,
  author = { Liu, Jinglin and Li, Chengxi and Ren, Yi and Chen, Feiyang and Liu, Peng and Zhao, Zhou } ,
  journal = { arXiv preprint arXiv:2105.02446 } ,
  volume = { 2 } ,
  year = { 2021 }
 }

Agradecimentos

Nossos códigos são influenciados pelos seguintes repositórios:

Pytorch Lightning
Parallelwavegan
Hifi-Gan
ESPNET
Brilho-tts
DiffSpeech

Licença e contrato

Qualquer organização ou indivíduo é proibido de usar qualquer tecnologia mencionada neste artigo para gerar o discurso de alguém sem o seu consentimento, incluindo, entre outros, líderes governamentais, figuras políticas e celebridades. Se você não cumprir este item, poderá violar as leis de direitos autorais.

Expandir

Informações adicionais

Versão v0.1
Tipo Código-Fonte de IA
Data da Última Atualização 2025-09-14
tamanho 179.02KB
Vindo de Github

Aplicativos Relacionados

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos