Unduh Efficient Speech - Unduh Kode Sumber Efficient Speech

Efficient Speech

Kode Sumber AI

1.0.0

Unduh

Efficientspeech: Teks di perangkat untuk model bicara

Efisienspeech , atau ES singkat, adalah model saraf yang efisien untuk berbicara (TTS) model. Ini menghasilkan spektrogram MEL dengan kecepatan 104 (MRTF) atau 104 detik pidato per detik pada RPI4. Versi kecilnya memiliki jejak hanya 266 ribu parameter - sekitar 1% hanya dari TT modern seperti Mixertts. Menghasilkan 6 detik pidato hanya mengkonsumsi 90 MFLOPS.

Kertas

IEEE Xplore
Arxiv

Arsitektur Model

Efficientspeech adalah transformator piramida yang dangkal (2 blok!) Menyerupai n-net. Upsampling dilakukan oleh konvolusi terpisah yang dapat dipisahkan oleh kedalaman yang ditransfer.

Demo cepat

Memasang

ES saat ini bermigrasi ke Pytorch 2.0 dan Lightning 2.0. Harapkan fitur yang tidak stabil.

 pip install -r requirements.txt

Kompilasi dan jumlah opsi utas

Opsi yang dikompilasi didukung menggunakan --compile selama pelatihan atau inferensi. Untuk pelatihan, mode yang bersemangat lebih cepat. Pelatihan versi kecil ~ 17 jam pada A100. Untuk inferensi, versi yang dikompilasi lebih cepat. Untuk alasan yang tidak diketahui, opsi kompilasi adalah menghasilkan kesalahan saat- --infer-device cuda .

Secara default, Pytorch 2.0 menggunakan 128 utas CPU (AMD, 4 di RPI4) yang menyebabkan perlambatan selama inferensi. Selama inferensi, disarankan untuk mengaturnya ke angka yang lebih rendah. Misalnya: --threads 24 .

Inferensi RPI4

Pytorch 2.0 lebih lambat pada RPI4. Harap gunakan rilis demo dan bobot model ICASSP2023.

RTF di Pytorch 2.0 adalah ~ 1.0. RTF pada Pytorch 1.12 adalah ~ 1.7.

Atau, silakan gunakan versi ONNX:

 python3 demo.py --checkpoint https://github.com/roatienza/efficientspeech/releases/download/pytorch2.0.1/tiny_eng_266k.onnx 
  --infer-device cpu  --text "the primary colors are red, green, and blue."  --wav-filename primary.wav

Onnx

Hanya mendukung panjang fonem input tetap. Padding atau pemotongan diterapkan jika diperlukan. Ubah menggunakan --onnx-insize=<desired value> . Panjang fonem maks default adalah 128. Misalnya:

 python3 convert.py --checkpoint tiny_eng_266k.ckpt --onnx tiny_eng_266k.onnx --onnx-insize 256

Persiapan dataset

Pilih folder dataset: misalnya <data_folder> = /data/tts - direktori di mana dataset akan disimpan.

Unduh Dataset KSS Kustom:

 cd efficientspeech
mkdir ./data/kss

Unduh Dataset KSS Kustom di sini

Siapkan dataset: <parent_folder> - Di mana EfficientSpeech dikloning git.

 cd <parent_folder>/efficientspeech

Edit config/LJSpeech/preprocess.yaml :

 >>>>>>>>>>>>>>>>>
path:
  corpus_path: "./data/tts/kss"
  lexicon_path: "lexicon/korean-lexicon.txt"
  raw_path: "./data/tts/kss/wavs"
  preprocessed_path: "./preprocessed_data/kss"
>>>>>>>>>>>>>>>>

Ganti /data/tts dengan <data_folder> Anda.

Unduh Data Alignment ke preprocessed_data/KSS/TextGrid dari sini.

Siapkan dataset:

 python prepare_align.py config/kss/preprocess.yaml
python preprocess.py config/kss/preprocess.yaml

Ini akan memakan waktu satu jam atau lebih.

Untuk info lebih lanjut: Implementasi FastSpeech2 untuk menyiapkan dataset.

Kereta

Es Tiny

Secara default:

--precision=16 . Opsi lain: "bf16-mixed", "16-mixed", 16, 32, 64 .
--accelerator=gpu
--infer-device=cuda
--devices=1
Lihat lebih banyak opsi di utils/tools.py

 python3 train.py

Es kecil

 python3 train.py --n-blocks 3 --reduction 2

Dasar es

 python3 train.py --head 2 --reduction 1 --expansion 2 --kernel-size 5 --n-blocks 3 --block-depth 3

Kesimpulan

 python3 demo.py --checkpoint ./lightning_logs/version_2/checkpoints/epoch=4999-step=485000.ckpt --text "그는 괜찮은 척하려고 애 쓰는 것 같았다." --wav-filename base.wav

Perbandingan dengan TTS saraf sota lainnya

ES VS FS2 vs Portaspeech vs Lightspeech

Kredit

Fastspeech2 github tidak resmi.

Referensi

Untuk informasi lebih lanjut, silakan merujuk ke repositori berikut:

HGU-DLLAB/KOREAN-FASTSPEECH2-PYTORCH
CarpedM20/multi-speaker-tacotron-tensorflow
Kyubyong/G2PK

Harus melakukan

Perbaiki synthesize.py , fungsi Text2Phoneme Korea [✅]
Mendukung multi-speaker embedding [WIP]
Dukung Pembersih Multilingual [WIP]

Kutipan

Jika Anda menemukan pekerjaan ini bermanfaat, silakan kutip:

 @inproceedings{atienza2023efficientspeech,
  title={EfficientSpeech: An On-Device Text to Speech Model},
  author={Atienza, Rowel},
  booktitle={ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={1--5},
  year={2023},
  organization={IEEE}
}

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2025-08-21
ukuran 5.1MB
Berasal dari Github

Aplikasi Terkait

efficient language detector

2024-11-06
Parameter Efficient Transfer Learning Benchmark

2024-11-06
GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua