ZeroSpeech TTS without T ดาวน์โหลด

ZeroSpeech TTS without T

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

Zerospeech 2019: TTS Without T - Pytorch

นี่คือซอร์สโค้ดดั้งเดิมสำหรับกระดาษ
Furthurmore เราใช้การดำเนินการนี้เพื่อแข่งขันใน Zerospeech 2019 Challenge บนกระดานข้อมูลชุดข้อมูลที่น่าประหลาดใจวิธีการที่เสนอคือ อันดับ ^ที่ 2 ในแง่ของบิตเรตต่ำ ในขณะที่ได้รับ คะแนนความคิดเห็นเฉลี่ยที่สูงขึ้น (MOS) และ CER ต่ำกว่าทีม 1 ^St Place
อย่าลังเลที่จะใช้หรือแก้ไขรายงานข้อผิดพลาดหรือข้อเสนอแนะการปรับปรุงใด ๆ จะได้รับการชื่นชม หากคุณมีคำถามใด ๆ โปรดติดต่อ [email protected] หากคุณพบว่าโครงการนี้มีประโยชน์สำหรับการวิจัยของคุณโปรดพิจารณาที่จะอ้างถึงบทความนี้ขอบคุณ!

เริ่มต้นอย่างรวดเร็ว

การตั้งค่า

โคลน repo นี้: git clone [email protected]:andi611/ZeroSpeech-TTS-without-T.git
CD ใน repo นี้: cd ZeroSpeech-TTS-without-T

การติดตั้งการอ้างอิง

ติดตั้ง Python 3
ติดตั้ง Pytorch เวอร์ชันล่าสุดตามแพลตฟอร์มของคุณ เพื่อประสิทธิภาพที่ดีขึ้นให้ติดตั้งด้วย GPU Support (CUDA) หากทำงานได้ รหัสนี้ใช้งานได้กับ Pytorch 0.4 และใหม่กว่า

เตรียมข้อมูล

ดาวน์โหลดชุดข้อมูล Zerospeech

ชุดข้อมูลภาษาอังกฤษ:

 wget https://download.zerospeech.com/2019/english.tgz
tar xvfz english.tgz -C data
rm -f english.tgz

ชุดข้อมูลเซอร์ไพรส์:

 wget https://download.zerospeech.com/2019/surprise.zip
# Go to https://download.zerospeech.com  and accept the licence agreement 
# to get the password protecting the archive
unzip surprise.zip -d data
rm -f surprise.zip

หลังจากเปิดชุดข้อมูลลงใน ~/ZeroSpeech-TTS-without-T/data แผนผังข้อมูลควรมีลักษณะเช่นนี้:
```
 |- ZeroSpeech-TTS-without-T
	 |- data
		 |- english
			 |- train
			 	|- unit
			 	|- voice
			 |- test
		|- surprise
			 |- train
			 	|- unit
			 	|- voice
			 |- test
```
ประมวลผลไฟล์ดัชนีชุดข้อมูลและตัวอย่างแบบจำลองตัวอย่าง:
```
 python3 main.py --preprocess —-remake
```

การใช้งาน

การฝึกอบรม

ฝึกอบรมโมเดล AutoEncoder AUTOENCODER สำหรับการค้นพบหน่วยภาษาศาสตร์แบบไม่ต่อเนื่อง:
```
 python3 main.py --train_ae
```
hyperparameters ที่ปรับได้สามารถพบได้ใน hps/zerospeech.json คุณสามารถปรับพารามิเตอร์และการตั้งค่าเหล่านี้ได้โดยการแก้ไขไฟล์แนะนำให้ใช้พารามิเตอร์ไฮเปอร์พารามิเตอร์เริ่มต้นสำหรับโครงการนี้
Train TTS Patcher สำหรับการเพิ่มประสิทธิภาพการแปลงเสียง:
```
 python3 main.py --train_p --load_model --load_train_model_name=model.pth-ae-400000
```
ฝึกอบรม TTS Patcher ด้วยการฝึกอบรมฝ่ายตรงข้ามเป้าหมาย:
```
 python3 main.py --train_tgat --load_model --load_train_model_name=model.pth-ae-400000
```

ตรวจสอบด้วย tensorboard (ไม่บังคับ)

 tensorboard --logdir='path to log dir'
or
python3 -m tensorboard.main --logdir='path to log dir'

การทดสอบ

ทดสอบคำพูดเดียว ::

 python3 main.py --test_single --load_test_model_name=model.pth-ae-200000

ทดสอบ 'synthesis.txt' และ สร้างไฟล์เสียงที่สังเคราะห์ใหม่ :::
```
 python3 main.py --test --load_test_model_name=model.pth-ae-200000
```
ทดสอบคำพูดการทดสอบทั้งหมดภายใต้ test/ และ สร้างไฟล์เข้ารหัส ::
```
 python3 main.py --test_encode --load_test_model_name=model.pth-ae-200000
```

เพิ่ม --enc_only หากการทดสอบกับ ASR-TTS AutoEncoder เท่านั้น:

 python3 main.py --test_single --load_test_model_name=model.pth-ae-200000 --enc_only
python3 main.py --test --load_test_model_name=model.pth-ae-200000 --enc_only
python3 main.py --test_encode --load_test_model_name=model.pth-ae-200000 --enc_only

การสลับระหว่างชุดข้อมูล

เพียงแค่ใช้ --dataset=surprise ที่จะเปลี่ยนไปใช้ชุดทางเลือกเริ่มต้นเส้นทางทั้งหมดจะได้รับการจัดการโดยอัตโนมัติหากโครงสร้างต้นไม้ข้อมูลถูกวางตามที่แนะนำ ตัวอย่างเช่น:
```
 python3 main.py --train_ae --dataset=surprise
```

รูปแบบที่ผ่านการฝึกอบรม

เราให้บริการรุ่นที่ผ่านการฝึกอบรมเป็นไฟล์ ckpt, donwload link: bit.ly/zerospeech2019-liu
แบบจำลองใหม่สำหรับการฝึกอบรม:
```
 --load_train_model_name=model.pth-ae-400000-128-multi-1024-english
```
( --ckpt_dir=./ckpt_english หรือ --ckpt_dir=./ckpt_surprise โดยค่าเริ่มต้น)

2 วิธีในการโหลดแบบจำลองสำหรับการทดสอบ:

 --load_test_model_name=model.pth-ae-400000-128-multi-1024-english (by name)
--ckpt_pth=ckpt/model.pth-ae-400000-128-multi-1024-english (direct path)

ใส่ใจว่า hps/zerospeech.json จะต้องตั้งค่าตามแบบจำลองที่คุณกำลังโหลด หากมีการโหลดโมเดล 128-multi-1024 ควรตั้งค่า seg_len และ enc_size เป็น 128 และ 1024 ตามลำดับ หากมีการโหลดโมเดล ae อาร์กิวเมนต์ --enc_only จะต้องใช้เมื่อเรียกใช้ main.py (ดู 4. ในส่วนการทดสอบ)

หมายเหตุ

รหัสนี้รวมถึงการตั้งค่าและวิธีการทั้งหมดที่เราได้ทดสอบสำหรับความท้าทายนี้ซึ่งบางส่วนไม่ได้เป็น Suceess แต่เราไม่ได้ลบออกจากรหัสของเรา อย่างไรก็ตามคำแนะนำก่อนหน้านี้และการตั้งค่าเริ่มต้นสำหรับวิธีที่เราเสนอ โดยการเรียกใช้พวกเขาสามารถทำซ้ำผลลัพธ์ของเราได้อย่างง่ายดาย
TODO: อัปโหลดรุ่นที่ผ่านการฝึกอบรมมาก่อน

การอ้างอิง

 @article{Liu_2019,
   title={Unsupervised End-to-End Learning of Discrete Linguistic Units for Voice Conversion},
   url={http://dx.doi.org/10.21437/interspeech.2019-2048},
   DOI={10.21437/interspeech.2019-2048},
   journal={Interspeech 2019},
   publisher={ISCA},
   author={Liu, Andy T. and Hsu, Po-chun and Lee, Hung-Yi},
   year={2019},
   month={Sep}
}

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท โค้ดแหล่งที่มา AI
เวลาอัปเดต 2025-08-24
ขนาด 73.92MB
มาจาก Github

แอปที่เกี่ยวข้อง

F5 TTS ComfyUI

2024-11-02
พิเศษ 4K t

2024-06-13
คาลอสที

2024-05-26
แอพ T ชีวิตของฉัน

2023-09-12
แอพผู้ช่วย T

2023-08-18
สตับส์ซอมบี้ในกบฏโดยไม่ต้องชีพจร

2022-08-24

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
ML stack

โค้ดแหล่งที่มา AI

1.0.0
awesome free chatgpt

โค้ดแหล่งที่มา AI

1.0.0
pywin_contextmenu

โค้ดแหล่งที่มา AI

Version update
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด