Unduh text2speech - Unduh Kode Sumber text2speech

text2speech

Kode Sumber AI

1.0.0

Unduh

Menuju Membangun Sistem Teks-ke-Pidato untuk Miliar Pengguna Berikutnya

? Diterima di ICASSP 2023

Sistem Text-to-Speech (TTS) berbasis pembelajaran mendalam telah berkembang pesat dengan kemajuan dalam arsitektur model, metodologi pelatihan, dan generalisasi lintas penutur dan bahasa. Namun, kemajuan ini belum diselidiki secara menyeluruh untuk sintesis pidato bahasa India. Investigasi semacam itu mahal secara komputasi mengingat jumlah dan keragaman bahasa India, ketersediaan sumber daya yang relatif lebih rendah, dan beragam kemajuan dalam TT saraf yang tetap belum teruji. Dalam makalah ini, kami mengevaluasi pilihan model akustik, vokoder, fungsi kehilangan tambahan, jadwal pelatihan, dan keragaman pembicara dan bahasa untuk bahasa Dravida dan Indo-Arya. Berdasarkan hal ini, kami mengidentifikasi model monolingual dengan Fastpitch dan HiFi-Gan V1, dilatih bersama pada penutur pria dan wanita untuk melakukan yang terbaik. Dengan pengaturan ini, kami melatih dan mengevaluasi model TTS untuk 13 bahasa dan menemukan model kami untuk secara signifikan meningkatkan model yang ada di semua bahasa yang diukur dengan skor opini rata -rata. Kami open-source semua model di platform Bhashini.

TL; DR: Kami Sumber Terbuka Sota Model Text-to-Speech untuk 13 Bahasa India: Assamese, Bengali, Bodo, Gujarati, Hindi, Kannada, Malayalam, Manipuri, Marathi, Odia, Rajasthani, Tamil dan Telugu .

Penulis: Gokul Karthik Kumar*, Praveen Sv*, Pratyush Kumar, Mitesh M. Khapra, Karthik Nandakumar

[ARXIV Preprint] [Sampel audio] [Coba live] [Video]

Arsitektur terpadu sistem TTS kami

Hasil

Pengaturan:

Pengaturan Lingkungan:

 # 1. Create environment
sudo apt-get install libsndfile1-dev
conda create -n tts-env
conda activate tts-env

# 2. Setup PyTorch
pip3 install -U torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu113

# 3. Setup Trainer
git clone https://github.com/gokulkarthik/Trainer 

cd Trainer
pip3 install -e .[all]
cd ..
[or]
cp Trainer/trainer/logging/wandb_logger.py to the local Trainer installation # fixed wandb logger
cp Trainer/trainer/trainer.py to the local Trainer installation # fixed model.module.test_log and added code to log epoch 
add `gpus = [str(gpu) for gpu in gpus]` in line 53 of trainer/distribute.py

# 4. Setup TTS
git clone https://github.com/gokulkarthik/TTS 

cd TTS
pip3 install -e .[all]
cd ..
[or]
cp TTS/TTS/bin/synthesize.py to the local TTS installation # added multiple output support for TTS.bin.synthesis

# 5. Install other requirements
> pip3 install -r requirements.txt

Pengaturan Data:

Format dataset dada dalam format ljspeech menggunakan preprocessing/formatDataSets.ipynb
Analisis Dataset Directts Untuk memeriksa kesesuaian TTS menggunakan preprocessing/analyzedataSet.ipynb

Langkah Pelatihan:

Atur konfigurasi dengan main.py, vocoder.py, configs and run.sh. Pastikan untuk memperbarui cuda_visible_devices di semua file ini.
Latih dan tes dengan mengeksekusi sh run.sh

Kesimpulan:

Berat model terlatih dan file konfigurasi dapat diunduh di tautan ini.

 python3 -m TTS.bin.synthesize --text <TEXT> 
    --model_path <LANG>/fastpitch/best_model.pth 
    --config_path <LANG>/config.json 
    --vocoder_path <LANG>/hifigan/best_model.pth 
    --vocoder_config_path <LANG>/hifigan/config.json 
    --out_path <OUT_PATH>

Referensi Kode: https://github.com/coqui-ai/tts

Memperluas

Informasi Tambahan