tacotron2 tts GUI ดาวน์โหลด - tacotron2 tts GUI Source Source Download

tacotron2 tts GUI

โค้ดแหล่งที่มา AI

[Windows] GUI Portable executable (CPU only)

ดาวน์โหลด

GUI กำลังดำเนินการอยู่ (อัปเดต 4 สิงหาคม 2563)

GUI wrapper สำหรับการสังเคราะห์ อนุญาตให้สังเคราะห์ CPU เท่านั้นผ่านสวิตช์สลับ ไฟล์ EXE แบบพกพาพร้อมใช้งาน (ที่ทำงานบน CPU เท่านั้น)

นอกจากนี้ยังเล่นการแจ้งเตือนการบริจาค TTS จากองค์ประกอบสตรีม

UI หลัก	การรวมองค์ประกอบของสตรีม

ภาพรวม

โปรแกรมการเรียนรู้ด้วยการเรียนรู้ด้วยเครื่องจักรด้วย GUI ที่เป็นมิตรกับผู้ใช้ กลุ่มเป้าหมาย ได้แก่ Twitch Streamers หรือผู้สร้างเนื้อหาที่กำลังมองหาโปรแกรม TTS โอเพนซอร์ส เป้าหมายของซอฟต์แวร์นี้คือการทำให้การสังเคราะห์ TTS สามารถเข้าถึงได้แบบออฟไลน์ (ไม่มีประสบการณ์การเข้ารหัส, GPU/colab) ใน EXE แบบพกพา

คุณสมบัติ

อ่านการบริจาคจากองค์ประกอบสตรีมโดยอัตโนมัติ
pyqt5 wrapper สำหรับ nvidia /tacotron2 & /waveglow

ลิงค์ดาวน์โหลด

สามารถเรียกใช้งานแบบพกพาได้ที่หน้ารีลีสหรือที่นี่โดยตรง ดาวน์โหลดรุ่น Tacotron 2 และ Waveglow จากด้านล่าง

คำเตือน: การดำเนินการแบบพกพาทำงานบน CPU ซึ่งนำไปสู่การชะลอตัวของความเร็ว> 10 เท่าเมื่อเทียบกับการทำงานบน GPU

อาคารจากแหล่งกำเนิด

ความต้องการ

Python> = 3.7
คลังแสง
นม
pyqt5 == 5.15.0
การร้องขอ
TQDM
matplotlib
คนขี้เกียจ
num2words
pygame

Pytorch 1.0

วิ่ง

 python gui.py

ใบอนุญาต

NVIDIA/TACOTRON2 & WAWGLOW: ใบอนุญาต BSD-3-CLAUSE

หมายเหตุ

รหัส TTS จาก NVIDIA/TACOTRON22
รหัส GUI บางส่วนจาก https://github.com/corentinj/real-time-voice-cloning และเลย์เอา

repo ดั้งเดิม:

Tacotron 2 (ไม่มี wavenet)

การใช้ Pytorch ของการสังเคราะห์ TTS ธรรมชาติโดยการปรับสภาพ wavenet ในการทำนาย MEL spectrogram

การใช้งานนี้รวมถึงการสนับสนุนแบบกระจายความแม่นยำ แบบกระจาย และ อัตโนมัติ และใช้ชุดข้อมูล LJSpeech

การสนับสนุนความแม่นยำแบบผสมและอัตโนมัติแบบกระจายโดยอัตโนมัติขึ้นอยู่กับยอดและแอมป์ของ Nvidia

เยี่ยมชมเว็บไซต์ของเราสำหรับตัวอย่างเสียงโดยใช้โมเดล Tacotron 2 และ Waveglow ที่เผยแพร่ของเรา

การจัดตำแหน่ง, mel spectrogram ที่คาดการณ์, mel target spectrogram

สิ่งที่ต้องมีก่อน

nvidia gpu + cuda cudnn

การตั้งค่า

ดาวน์โหลดและแยกชุดข้อมูลคำพูด LJ
โคลน repo นี้: git clone https://github.com/NVIDIA/tacotron2.git
CD ใน repo นี้: cd tacotron2
เริ่มต้น submodule: git submodule init; git submodule update
อัปเดต. wav paths: sed -i -- 's,DUMMY,ljs_dataset_folder/wavs,g' filelists/*.txt
- อีกทางเลือกหนึ่งตั้งค่า load_mel_from_disk=True ใน hparams.py และอัปเดตเส้นทาง mel-spectrogram
ติดตั้ง pytorch 1.0
ติดตั้ง Apex
ติดตั้งข้อกำหนดของ Python หรือสร้างภาพ Docker
- การติดตั้งข้อกำหนด Python: pip install -r requirements.txt

การฝึกอบรม

python train.py --output_directory=outdir --log_directory=logdir
(ไม่บังคับ) tensorboard --logdir=outdir/logdir

การฝึกอบรมโดยใช้แบบจำลองที่ผ่านการฝึกอบรมมาก่อน

การฝึกอบรมโดยใช้โมเดลที่ผ่านการฝึกอบรมมาล่วงหน้าสามารถนำไปสู่การบรรจบกันได้เร็วขึ้นโดยค่าเริ่มต้นเลเยอร์การฝังข้อความที่ขึ้นอยู่กับชุดข้อมูลจะถูกละเว้น

ดาวน์โหลดรุ่น Tacotron 2 ที่เผยแพร่ของเรา
python train.py --output_directory=outdir --log_directory=logdir -c tacotron2_statedict.pt --warm_start

Multi-GPU (กระจาย) และการฝึกอบรมความแม่นยำแบบผสมอัตโนมัติ

python -m multiproc train.py --output_directory=outdir --log_directory=logdir --hparams=distributed_run=True,fp16_run=True

การอนุมานการสาธิต

ดาวน์โหลดรุ่น Tacotron 2 ที่เผยแพร่ของเรา
ดาวน์โหลดโมเดล WaveGlow ที่เผยแพร่ของเรา
jupyter notebook --ip=127.0.0.1 --port=31337
โหลดการอนุมาน. ipynb

NB เมื่อดำเนินการ mel-spectrogram เพื่อการสังเคราะห์เสียงตรวจสอบให้แน่ใจว่า Tacotron 2 และตัวถอดรหัส MEL ได้รับการฝึกฝนในการแสดง mel-spectrogram เดียวกัน