Etos tts มีจุดมุ่งหมายเพื่อสร้างข้อความประสาทเป็นคำพูด (TTS) ที่สามารถแปลงข้อความเป็นคำพูดในเสียงที่สุ่มตัวอย่างในป่า มันคือการใช้งาน Pytorch ของ Tacotron: รูปแบบการสังเคราะห์แบบข้อความถึงการพูดแบบ end-to-end อย่างเต็มที่
sudo apt install libsndfile1คุณสามารถใช้ PIP เพื่อติดตั้งข้อกำหนดอื่น ๆ
pip3 install -r requirements.txt
คุณสามารถใช้โมเดลที่ผ่านการฝึกอบรมภายใต้ models/may22 และเรียกใช้เว็บเซิร์ฟเวอร์ TTS:
python server.py -c server_conf.json
จากนั้นไปที่ http://127.0.0.1:8000 แล้วสนุก
ปัจจุบัน TTS มีตัวโหลดข้อมูลสำหรับ
ในการเรียกใช้การฝึกอบรมของคุณเองคุณต้องกำหนดไฟล์ config.json (เทมเพลตง่าย ๆ ด้านล่าง) และโทรด้วยคำสั่ง
train.py --config_path config.json
หากคุณต้องการใช้ชุด GPUs เฉพาะ
CUDA_VISIBLE_DEVICES="0,1,4" train.py --config_path config.json
การรันแต่ละครั้งจะสร้างโฟลเดอร์การทดลองด้วยวันที่และเวลาที่เกี่ยวข้องภายใต้โฟลเดอร์ที่คุณตั้งค่าใน config.json และหากยังไม่มีจุดตรวจสอบภายใต้โฟลเดอร์นั้นจะถูกลบออกเมื่อคุณกด Ctrl+C
นอกจากนี้คุณยังสามารถเพลิดเพลินกับ Tensorboard ด้วยบันทึกการฝึกอบรมที่ดีสองสามรายการหากคุณชี้ --logdir โฟลเดอร์การทดลอง
ตัวอย่าง config.json :
{
"num_mels": 80,
"num_freq": 1025,
"sample_rate": 22050,
"frame_length_ms": 50,
"frame_shift_ms": 12.5,
"preemphasis": 0.97,
"min_level_db": -100,
"ref_level_db": 20,
"embedding_size": 256,
"text_cleaner": "english_cleaners",
"epochs": 200,
"lr": 0.002,
"warmup_steps": 4000,
"batch_size": 32,
"eval_batch_size":32,
"r": 5,
"mk": 0.0, // guidede attention loss weight. if 0 no use
"priority_freq": true, // freq range emphasis
"griffin_lim_iters": 60,
"power": 1.2,
"dataset": "TWEB",
"meta_file_train": "transcript_train.txt",
"meta_file_val": "transcript_val.txt",
"data_path": "/data/shared/BibleSpeech/",
"min_seq_len": 0,
"num_loader_workers": 8,
"checkpoint": true, // if save checkpoint per save_step
"save_step": 200,
"output_path": "/path/to/my_experiment",
}