NATSpeech -Download - NATSpeech Quellcode Download

NATSpeech

AI-Quellcode

v0.1

Herunterladen

Natspeech: Ein nicht autoregressives Text-zu-Sprach-Framework

| | 中文文档

Dieses Repo enthält die offizielle Pytorch -Implementierung von:

Portaspeech: Tragbare und hochwertige generative Text-zu-Sprache (Neurips 2021)
Demo -Seite | Umarmung? Demo
Diffsinger: Singensynthese über den flachen Diffusionsmechanismus (Diffspeech) (AAAI 2022)
Demo -Seite | Projektseite | Umarmung? Demo

Schlüsselmerkmale

Wir implementieren die folgenden Funktionen in diesem Framework:

Datenverarbeitung für nicht autoregressive Text-zu-Sprache unter Verwendung von Montreal erzwungenen Aligner.
Bequemer und skalierbarer Rahmen für Training und Inferenz.
Einfache, aber effiziente Zufallszugriffsdatensatzimplementierung.

Abhängigkeiten installieren

 # # We tested on Linux/Ubuntu 18.04. 
# # Install Python 3.6+ first (Anaconda recommended).

export PYTHONPATH=.
# build a virtual env (recommended).
python -m venv venv
source venv/bin/activate
# install requirements.
pip install -U pip
pip install Cython numpy==1.19.1
pip install torch==1.9.0 # torch >= 1.9.0 recommended
pip install -r requirements.txt
sudo apt install -y sox libsox-fmt-mp3
bash mfa_usr/install_mfa.sh # install forced alignment tool

Unterlagen

Über den Rahmen
Ausführen von Portaspeech
Diffspeech laufen

Zitat

Wenn Sie dies für Ihre Forschung nützlich finden, zitieren Sie bitte die folgenden Papiere:

Portaspeech

 @article { ren2021portaspeech ,
  title = { PortaSpeech: Portable and High-Quality Generative Text-to-Speech } ,
  author = { Ren, Yi and Liu, Jinglin and Zhao, Zhou } ,
  journal = { Advances in Neural Information Processing Systems } ,
  volume = { 34 } ,
  year = { 2021 }
}

Diffspeech

 @article { liu2021diffsinger ,
  title = { Diffsinger: Singing voice synthesis via shallow diffusion mechanism } ,
  author = { Liu, Jinglin and Li, Chengxi and Ren, Yi and Chen, Feiyang and Liu, Peng and Zhao, Zhou } ,
  journal = { arXiv preprint arXiv:2105.02446 } ,
  volume = { 2 } ,
  year = { 2021 }
 }

Anerkennung

Unsere Codes werden von den folgenden Repos beeinflusst:

Pytorch Lightning
Parallelwavegan
Hifi-Gan
ESPNET
Glühen-TTS
Diffspeech

Lizenz und Vereinbarung

Jede Organisation oder Person ist es untersagt, eine in diesem Papier erwähnte Technologie zu verwenden, um die Rede von jemandem ohne seine Zustimmung zu generieren, einschließlich, aber nicht beschränkt auf Regierungschefs, politische Persönlichkeiten und Prominente. Wenn Sie diesen Artikel nicht einhalten, könnten Sie gegen Urheberrechtsgesetze verstoßen.

Expandieren

Zusätzliche Informationen