zhtts
1.0.0
ขอแนะนำให้ใช้ Paddlespeech เพื่อทำการสังเคราะห์การออกเสียงภาษาจีน
ชาวจีน
การสาธิตของข้อความ ZH/ภาษาจีนไปยังระบบการพูดทำงานบน CPU แบบเรียลไทม์ (FastSpeech2 + Mbmelgan)
RTF (ปัจจัยเรียลไทม์): 0.2 พร้อม CPU: Intel (R) Core (TM) I5-7200U CPU @ 2.50GHz 24KHz Audio ใช้ FastSpeech2, RTF1.6 สำหรับ Tacotron22
repo นี้ ส่วนใหญ่ขึ้นอยู่กับ tensorflowtts ที่มีการปรับปรุงเพียงเล็กน้อย
text = "ในปี 2020 นี่คือระบบการสังเคราะห์เสียงแบบครบวงจรแบบโอเพนซอร์ส"
ZHTTS SYNTHESIS MP3
pip install zhtts
หรือโคลน repo นี้จากนั้น pip install .
import zhtts
text = "2020年,这是一个开源的端到端中文语音合成系统"
tts = zhtts . TTS () # use fastspeech2 by default
tts . text2wav ( text , "demo.wav" )
> >> Save wav to demo . wav
tts . frontend ( text )
> >> ( '二零二零年,这是一个开源的端到端中文语音合成系统' , 'sil ^ er4 #0 l ing2 #0 ^ er4 #0 l ing2 #0 n ian2 #0 #3 zh e4 #0 sh iii4 #0 ^ i2 #0 g e4 #0 k ai1 #0 ^ van2 #0 d e5 #0 d uan1 #0 d ao4 #0 d uan1 #0 zh ong1 #0 ^ uen2 #0 ^ v3 #0 ^ in1 #0 h e2 #0 ch eng2 #0 x i4 #0 t ong3 sil' )
tts . synthesis ( text )
> >> array ([ 0. , 0. , 0. , ..., 0. , 0. , 0. ], dtype = float32 ) โคลน repo นี้, pip install flask ก่อนแล้ว
python app.py
$ curl -o " helloworld.wav " " http://localhost:5000/api/tts?text=%E4%BD%A0%E5%A5%BD%E4%B8%96%E7%95%8C " %E4%BD%A0%E5%A5%BD%E4%B8%96%E7%95%8C เป็นรหัส URL ของ "สวัสดีโลก!"
WAV สร้างจากโมเดล Tacotron นั้นดีกว่าการพูดเร็ว แต่ Tacotron ช้ากว่ามากในการใช้ทาโคทรอนเปลี่ยนรหัส
import zhtts
tts = zhtts . TTS ( text2mel_name = "TACOTRON" )
# tts = zhtts.TTS(text2mel_name="FASTSPEECH2")