Téléchargement Efficient Speech - Téléchargement de code source Efficient Speech

Efficient Speech

Code Source AI

1.0.0

Télécharger

EfficientsPEECH: un modèle de texte sur discours sur le modèle

EfficientsPeEch , ou ES pour court, est un modèle de texte neuronal efficace à la parole (TTS). Il génère le spectrogramme MEL à une vitesse de 104 (MRTF) ou 104 secondes de discours par seconde sur un RPI4. Sa petite version a une empreinte de seulement 266k paramètres - environ 1% seulement des TT modernes tels que Mixertts. La génération de 6 secondes de parole consomme 90 Mflops uniquement.

Papier

IEEE Xplore
Arxiv

Architecture modèle

EfficientsPeEch est un transformateur pyramide peu profond (2 blocs!) Ressemblant à un réseau U. L'échantillonnage est effectué par une convolution séparable transposée en profondeur.

Démo rapide

Installer

ES migre actuellement vers Pytorch 2.0 et Lightning 2.0. Attendez-vous à des fonctionnalités instables.

 pip install -r requirements.txt

Compiler et nombre d'options de threads

L'option compilée est prise en charge en utilisant --compile pendant la formation ou l'inférence. Pour la formation, le mode impatient est plus rapide. La formation de la petite version est ~ 17 heures sur un A100. Pour l'inférence, la version compilée est plus rapide. Pour une raison inconnue, l'option de compilation génère des erreurs lorsque --infer-device cuda .

Par défaut, Pytorch 2.0 utilise 128 threads CPU (AMD, 4 en RPI4), ce qui provoque un ralentissement pendant l'inférence. Pendant l'inférence, il est recommandé de le régler sur un nombre inférieur. Par exemple: --threads 24 .

Inférence RPI4

Pytorch 2.0 est plus lent sur RPI4. Veuillez utiliser la version de démonstration et les poids du modèle ICASSP2023.

RTF sur Pytorch 2.0 est ~ 1,0. RTF sur Pytorch 1.12 est ~ 1,7.

Alternativement, veuillez utiliser la version ONNX:

 python3 demo.py --checkpoint https://github.com/roatienza/efficientspeech/releases/download/pytorch2.0.1/tiny_eng_266k.onnx 
  --infer-device cpu  --text "the primary colors are red, green, and blue."  --wav-filename primary.wav

Onnx

Prend en charge uniquement la longueur du phonème d'entrée fixe. Le rembourrage ou la troncature est appliqué si nécessaire. Modifiez l'utilisation de --onnx-insize=<desired value> . La longueur du phonème maximum par défaut est 128. Par exemple:

 python3 convert.py --checkpoint tiny_eng_266k.ckpt --onnx tiny_eng_266k.onnx --onnx-insize 256

Préparation de l'ensemble de données

Choisissez un dossier de jeu de données: par exemple, le répertoire <data_folder> = /data/tts - où l'ensemble de données sera stocké.

Télécharger un ensemble de données KSS personnalisé:

 cd efficientspeech
mkdir ./data/kss

Téléchargez un ensemble de données KSS personnalisé ici

Préparez l'ensemble de données: <parent_folder> - où EfficientsPeech a été cloné Git.

 cd <parent_folder>/efficientspeech

Modifier config/LJSpeech/preprocess.yaml :

 >>>>>>>>>>>>>>>>>
path:
  corpus_path: "./data/tts/kss"
  lexicon_path: "lexicon/korean-lexicon.txt"
  raw_path: "./data/tts/kss/wavs"
  preprocessed_path: "./preprocessed_data/kss"
>>>>>>>>>>>>>>>>

Remplacer /data/tts par votre <data_folder> .

Téléchargez les données d'alignement sur preprocessed_data/KSS/TextGrid à partir d'ici.

Préparez l'ensemble de données:

 python prepare_align.py config/kss/preprocess.yaml
python preprocess.py config/kss/preprocess.yaml

Cela prendra environ une heure.

Pour plus d'informations: Implémentation FastSpeech2 pour préparer l'ensemble de données.

Former

Minuscules es

Par défaut:

--precision=16 . Autres options: "bf16-mixed", "16-mixed", 16, 32, 64 .
--accelerator=gpu
--infer-device=cuda
--devices=1
Voir plus d'options dans utils/tools.py

 python3 train.py

Petits es

 python3 train.py --n-blocks 3 --reduction 2

Base es

 python3 train.py --head 2 --reduction 1 --expansion 2 --kernel-size 5 --n-blocks 3 --block-depth 3

Inférence

 python3 demo.py --checkpoint ./lightning_logs/version_2/checkpoints/epoch=4999-step=485000.ckpt --text "그는 괜찮은 척하려고 애 쓰는 것 같았다." --wav-filename base.wav

Comparaison avec d'autres TTs neuronaux SOTA

Es vs fs2 vs portaspaspeech vs LightSpeech

Crédits

FastSpeech2 Github non officiel.

Références

Pour plus d'informations, veuillez vous référer aux référentiels suivants:

HGU-DLAB / KOREAN-FASTSPEECH2-PYTORCH
CARPEDM20 / Multi-Speaker-Tacotron-TensorFlow
Kyubyong / g2pk

Faire

Fix synthesize.py , Fonction coréenne Text2Phonème [✅]
Prise en charge de l'intégration multi-haut-parleurs [WIP]
Prise en charge des nettoyeurs multilingues [WIP]

Citation

Si vous trouvez ce travail utile, veuillez citer:

 @inproceedings{atienza2023efficientspeech,
  title={EfficientSpeech: An On-Device Text to Speech Model},
  author={Atienza, Rowel},
  booktitle={ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={1--5},
  year={2023},
  organization={IEEE}
}

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-08-21
taille 5.1MB
Provenant de Github

Applications connexes

efficient language detector

2024-11-06
Parameter Efficient Transfer Learning Benchmark

2024-11-06
GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout