GUI wrapper สำหรับการสังเคราะห์ อนุญาตให้สังเคราะห์ CPU เท่านั้นผ่านสวิตช์สลับ ไฟล์ EXE แบบพกพาพร้อมใช้งาน (ที่ทำงานบน CPU เท่านั้น)
นอกจากนี้ยังเล่นการแจ้งเตือนการบริจาค TTS จากองค์ประกอบสตรีม
| UI หลัก | การรวมองค์ประกอบของสตรีม |
|---|---|
โปรแกรมการเรียนรู้ด้วยการเรียนรู้ด้วยเครื่องจักรด้วย GUI ที่เป็นมิตรกับผู้ใช้ กลุ่มเป้าหมาย ได้แก่ Twitch Streamers หรือผู้สร้างเนื้อหาที่กำลังมองหาโปรแกรม TTS โอเพนซอร์ส เป้าหมายของซอฟต์แวร์นี้คือการทำให้การสังเคราะห์ TTS สามารถเข้าถึงได้แบบออฟไลน์ (ไม่มีประสบการณ์การเข้ารหัส, GPU/colab) ใน EXE แบบพกพา
สามารถเรียกใช้งานแบบพกพาได้ที่หน้ารีลีสหรือที่นี่โดยตรง ดาวน์โหลดรุ่น Tacotron 2 และ Waveglow จากด้านล่าง
คำเตือน: การดำเนินการแบบพกพาทำงานบน CPU ซึ่งนำไปสู่การชะลอตัวของความเร็ว> 10 เท่าเมื่อเทียบกับการทำงานบน GPU
Pytorch 1.0
python gui.py
การใช้ Pytorch ของการสังเคราะห์ TTS ธรรมชาติโดยการปรับสภาพ wavenet ในการทำนาย MEL spectrogram
การใช้งานนี้รวมถึงการสนับสนุนแบบกระจายความแม่นยำ แบบกระจาย และ อัตโนมัติ และใช้ชุดข้อมูล LJSpeech
การสนับสนุนความแม่นยำแบบผสมและอัตโนมัติแบบกระจายโดยอัตโนมัติขึ้นอยู่กับยอดและแอมป์ของ Nvidia
เยี่ยมชมเว็บไซต์ของเราสำหรับตัวอย่างเสียงโดยใช้โมเดล Tacotron 2 และ Waveglow ที่เผยแพร่ของเรา

git clone https://github.com/NVIDIA/tacotron2.gitcd tacotron2git submodule init; git submodule updatesed -i -- 's,DUMMY,ljs_dataset_folder/wavs,g' filelists/*.txtload_mel_from_disk=True ใน hparams.py และอัปเดตเส้นทาง mel-spectrogrampip install -r requirements.txt python train.py --output_directory=outdir --log_directory=logdirtensorboard --logdir=outdir/logdir การฝึกอบรมโดยใช้โมเดลที่ผ่านการฝึกอบรมมาล่วงหน้าสามารถนำไปสู่การบรรจบกันได้เร็วขึ้นโดยค่าเริ่มต้นเลเยอร์การฝังข้อความที่ขึ้นอยู่กับชุดข้อมูลจะถูกละเว้น
python train.py --output_directory=outdir --log_directory=logdir -c tacotron2_statedict.pt --warm_start python -m multiproc train.py --output_directory=outdir --log_directory=logdir --hparams=distributed_run=True,fp16_run=True jupyter notebook --ip=127.0.0.1 --port=31337NB เมื่อดำเนินการ mel-spectrogram เพื่อการสังเคราะห์เสียงตรวจสอบให้แน่ใจว่า Tacotron 2 และตัวถอดรหัส MEL ได้รับการฝึกฝนในการแสดง mel-spectrogram เดียวกัน
Waveglow เร็วกว่าเครือข่ายการกำเนิดแบบเรียลไทม์สำหรับการสังเคราะห์คำพูด
NV-wavenet เร็วกว่า Wavenet เรียลไทม์
การใช้งานนี้ใช้รหัสจาก repos ต่อไปนี้: Keith Ito, Prem Seetharaman ตามที่อธิบายไว้ในรหัสของเรา
เราได้รับแรงบันดาลใจจากการใช้งาน Tacotron Pytorch ของ Ryuchi Yamamoto
เราขอขอบคุณผู้เขียนกระดาษ Tacotron 2 โดยเฉพาะ Jonathan Shen, Yuxuan Wang และ Zongheng Yang