ดาวน์โหลด text2speech - text2speech ซอร์สโค้ดดาวน์โหลด

text2speech

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

สู่การสร้างระบบข้อความเป็นคำพูดสำหรับผู้ใช้พันล้านคนต่อไป

- ยอมรับที่ ICASSP 2023

ระบบการเรียนรู้อย่างลึกล้ำจากการเรียนรู้ด้วยข้อความ (TTS) ได้รับการพัฒนาอย่างรวดเร็วด้วยความก้าวหน้าในสถาปัตยกรรมแบบจำลองวิธีการฝึกอบรมและการวางนัยทั่วไปในลำโพงและภาษา อย่างไรก็ตามความก้าวหน้าเหล่านี้ยังไม่ได้รับการตรวจสอบอย่างละเอียดสำหรับการสังเคราะห์คำพูดภาษาอินเดีย การตรวจสอบดังกล่าวมีราคาแพงในการคำนวณเนื่องจากจำนวนและความหลากหลายของภาษาอินเดียความพร้อมใช้งานของทรัพยากรค่อนข้างต่ำและชุดความก้าวหน้าที่หลากหลายใน TTs ประสาทที่ยังไม่ได้ทดสอบ ในบทความนี้เราประเมินทางเลือกของโมเดลอะคูสติก, นักร้อง, ฟังก์ชั่นการสูญเสียเพิ่มเติมตารางการฝึกอบรมและความหลากหลายของผู้พูดและภาษาสำหรับภาษา Dravidian และ Indo-Aryan จากสิ่งนี้เราจะระบุโมเดล monolingual ด้วย fastpitch และ hifi-gan v1 ที่ผ่านการฝึกอบรมร่วมกันเกี่ยวกับลำโพงชายและหญิงเพื่อให้ดีที่สุด ด้วยการตั้งค่านี้เราฝึกอบรมและประเมินโมเดล TTS สำหรับ 13 ภาษาและค้นหาแบบจำลองของเราเพื่อปรับปรุงอย่างมีนัยสำคัญเมื่อโมเดลที่มีอยู่ในทุกภาษาซึ่งวัดจากคะแนนความคิดเห็นเฉลี่ย เราเปิดแหล่งข้อมูลทั้งหมดบนแพลตฟอร์ม Bhashini

TL; DR: เราโอเพ่นซอร์ส SOTA แบบจำลองข้อความเป็นคำพูดสำหรับ 13 ภาษาอินเดีย: อัสสัม, เบงกาลี, Bodo, Gujarati, ภาษาฮินดี, กันนาดา, มาลายาลัม, มณีปุระ, Marathi, Odia, Rajasthani, ทมิฬและเตลูกู

ผู้เขียน: Gokul Karthik Kumar*, Praveen SV*, Pratyush Kumar, Mitesh M. Khapra, Karthik Nandakumar

[arxiv preprint] [ตัวอย่างเสียง] [ลองใช้ชีวิต] [วิดีโอ]

สถาปัตยกรรมแบบครบวงจรของระบบ TTS ของเรา

ผลลัพธ์

การตั้งค่า:

การตั้งค่าสภาพแวดล้อม:

 # 1. Create environment
sudo apt-get install libsndfile1-dev
conda create -n tts-env
conda activate tts-env

# 2. Setup PyTorch
pip3 install -U torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu113

# 3. Setup Trainer
git clone https://github.com/gokulkarthik/Trainer 

cd Trainer
pip3 install -e .[all]
cd ..
[or]
cp Trainer/trainer/logging/wandb_logger.py to the local Trainer installation # fixed wandb logger
cp Trainer/trainer/trainer.py to the local Trainer installation # fixed model.module.test_log and added code to log epoch 
add `gpus = [str(gpu) for gpu in gpus]` in line 53 of trainer/distribute.py

# 4. Setup TTS
git clone https://github.com/gokulkarthik/TTS 

cd TTS
pip3 install -e .[all]
cd ..
[or]
cp TTS/TTS/bin/synthesize.py to the local TTS installation # added multiple output support for TTS.bin.synthesis

# 5. Install other requirements
> pip3 install -r requirements.txt

การตั้งค่าข้อมูล:

รูปแบบการระบุชุดข้อมูลในรูปแบบ ljspeech โดยใช้การประมวลผลล่วงหน้า/formatDatasets.ipynb
วิเคราะห์ชุดข้อมูล indictts เพื่อตรวจสอบความเหมาะสมของ TTS โดยใช้การประมวลผลล่วงหน้า/analyzedataSet.ipynb

ขั้นตอนการฝึกอบรม:

ตั้งค่าการกำหนดค่าด้วย main.py, vocoder.py, configs และ run.sh ตรวจสอบให้แน่ใจว่าได้อัปเดต cuda_visible_devices ในไฟล์เหล่านี้ทั้งหมด
ฝึกอบรมและทดสอบโดยดำเนินการ sh run.sh

การอนุมาน:

สามารถดาวน์โหลดไฟล์น้ำหนักและกำหนดค่ารุ่นที่ผ่านการฝึกอบรมได้ที่ลิงค์นี้

 python3 -m TTS.bin.synthesize --text <TEXT> 
    --model_path <LANG>/fastpitch/best_model.pth 
    --config_path <LANG>/config.json 
    --vocoder_path <LANG>/hifigan/best_model.pth 
    --vocoder_config_path <LANG>/hifigan/config.json 
    --out_path <OUT_PATH>

การอ้างอิงรหัส: https://github.com/coqui-ai/tts

ขยาย

ข้อมูลเพิ่มเติม