ดาวน์โหลด StyleTTS - StyleTTS Source Source Download

StyleTTS

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

Styletts: รูปแบบการกำเนิดตามสไตล์สำหรับการสังเคราะห์แบบข้อความตามธรรมชาติและหลากหลาย

Yinghao Aaron Li, Cong Han, Nima Mesgarani

Text-to-speech (TTS) ได้เห็นความคืบหน้าอย่างมากในการสังเคราะห์คำพูดที่มีคุณภาพสูงเนื่องจากการพัฒนาอย่างรวดเร็วของระบบ TTS แบบขนาน แต่การผลิตคำพูดด้วยรูปแบบของฉันทลักษณ์ธรรมชาติการพูดและเสียงทางอารมณ์ยังคงท้าทาย ยิ่งไปกว่านั้นเนื่องจากระยะเวลาและการพูดถูกสร้างขึ้นแยกต่างหากโมเดล TTS แบบขนานยังคงมีปัญหาในการค้นหาการจัดตำแหน่งแบบโมโนโทนิกที่ดีที่สุดซึ่งมีความสำคัญต่อการสังเคราะห์การพูดแบบธรรมชาติ ที่นี่เราเสนอ Styletts แบบจำลองการกำเนิดตามสไตล์สำหรับ TTS แบบขนานที่สามารถสังเคราะห์การพูดที่หลากหลายด้วยฉันทลักษณ์ธรรมชาติจากคำพูดอ้างอิง ด้วยการปรับแต่งแบบโมโนโทนิกแบบใหม่ (TMA) และแผนการเสริมข้อมูลระยะเวลาที่ไม่แปรปรวนวิธีการของเรามีประสิทธิภาพสูงกว่าแบบจำลองที่ทันสมัยทั้งในชุดข้อมูลเดี่ยวและหลายลำโพงในการทดสอบอัตนัยของความเป็นธรรมชาติและความคล้ายคลึงกันของผู้พูด ผ่านการเรียนรู้ด้วยตนเองเกี่ยวกับรูปแบบการพูดแบบจำลองของเราสามารถสังเคราะห์การพูดด้วยน้ำพุฉันและอารมณ์เหมือนกันกับคำพูดอ้างอิงใด ๆ ที่ได้รับโดยไม่จำเป็นต้องติดฉลากหมวดหมู่เหล่านี้อย่างชัดเจน

กระดาษ: https://arxiv.org/abs/2107.10394

ตัวอย่างเสียง: https://styletts.github.io/

สิ่งที่ต้องมีก่อน

Python> = 3.7
โคลนที่เก็บนี้:

git clone https://github.com/yl4579/StyleTTS.git
cd StyleTTS

ติดตั้งข้อกำหนด Python:

pip install SoundFile torchaudio munch torch pydub pyyaml librosa git+https://github.com/resemble-ai/monotonic_align.git

ดาวน์โหลดและแยกชุดข้อมูล LJSpeech คลายซิปไปยังโฟลเดอร์ข้อมูลและเพิ่มข้อมูลเป็น 24 kHz ผู้จัดเรียงข้อความและตัวแยกพิทช์ได้รับการฝึกอบรมล่วงหน้าบนข้อมูล 24 kHz แต่คุณสามารถเปลี่ยนการประมวลผลล่วงหน้าและฝึกอบรมใหม่โดยใช้การประมวลผลล่วงหน้าของคุณเองได้อย่างง่ายดาย ฉันจะให้ใบเสร็จรับเงินมากขึ้นและรุ่นที่ผ่านการฝึกอบรมมาก่อนในภายหลังหากฉันมีเวลา หากคุณยินดีที่จะช่วยเหลืออย่าลังเลที่จะทำงานกับวิธีการประมวลผลล่วงหน้าอื่น ๆ สำหรับ Libritts คุณจะต้องรวมการทำความสะอาดรถไฟ -360 เข้ากับรถไฟทำความสะอาด -100 และเปลี่ยนชื่อโฟลเดอร์รถไฟ-460 (ดู val_list_libritts.txt เป็นตัวอย่าง)

การฝึกอบรม

การฝึกอบรมขั้นตอนแรก:

python train_first.py --config_path ./Configs/config.yml

การฝึกอบรมขั้นตอนที่สอง:

python train_second.py --config_path ./Configs/config.yml

คุณสามารถเรียกใช้ทั้งสองติดต่อกันและมันจะฝึกอบรมทั้งขั้นตอนแรกและขั้นที่สอง โมเดลจะถูกบันทึกในรูปแบบ "epoch_1st_%05d.pth" และ "epoch_2nd_%05d.pth" จุดตรวจและบันทึก Tensorboard จะถูกบันทึกที่ log_dir

รูปแบบรายการข้อมูลจะต้องเป็น filename.wav|transcription ดู val_list_libritts.txt เป็นตัวอย่าง

การอนุมาน

โปรดดูที่การอนุมาน.ipynbสำหรับรายละเอียด

styletts pretrained และ hifi-gan บน ljspeech corpus ใน 24 kHz สามารถดาวน์โหลดได้ที่ลิงค์ Styletts และลิงก์ Hifi-Gan

สามารถดาวน์โหลด Styletts และ Hifi-Gan บน Libritts Corpus ได้ที่ลิงค์ Styletts และลิงก์ Hifi-Gan คุณต้องดาวน์โหลดการทดสอบทำความสะอาดจาก Libritts หากคุณต้องการเรียกใช้การสาธิต Zero-shot

โปรดคลายซิปกับ Models และ Vocoder ที่เกี่ยวข้องและเรียกใช้แต่ละเซลล์ในสมุดบันทึก คุณจะต้องติดตั้ง phonemizer เพื่อเรียกใช้การสาธิตการอนุมานนี้

การประมวลผลล่วงหน้า

ตัวจัดตำแหน่งข้อความที่ผ่านการฝึกอบรมและแบบจำลองเครื่องแยกพิทช์มีให้ภายใต้โฟลเดอร์ Utils ทั้งแบบจำลองการจัดตำแหน่งข้อความและตัวแยกพิทช์ได้รับการฝึกฝนด้วย melspectrograms ล่วงหน้าโดยใช้ meldataset.py

คุณสามารถแก้ไข meldataset.py ด้วยการประมวลผล melspectrogram preprocessing ของคุณเอง แต่โมเดลที่ได้รับการฝึกฝนที่ให้ไว้จะไม่ทำงานอีกต่อไป คุณจะต้องฝึกอบรมการจัดตำแหน่งข้อความของคุณเองและตัวแยกพิทช์ด้วยการประมวลผลล่วงหน้าใหม่

รหัสสำหรับการฝึกอบรมรูปแบบการจัดตำแหน่งข้อความใหม่มีให้ที่นี่และสำหรับการฝึกอบรมแบบจำลองเครื่องสกัดแบบพิทช์ใหม่มีให้ที่นี่

ฉันจะให้ข้อมูลเพิ่มเติมเกี่ยวกับการประมวลผลล่วงหน้าที่มีอยู่เช่นเดียวกับใน Hifigan และ Espnet อย่างเป็นทางการในอนาคตถ้าฉันมีเวลาพิเศษ หากคุณยินดีที่จะช่วยเหลืออย่าลังเลที่จะทำใบเสร็จรับเงินกับ ESPNET

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท โค้ดแหล่งที่มา AI
เวลาอัปเดต 2025-08-21
ขนาด 111.28MB
มาจาก Github

แอปที่เกี่ยวข้อง

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
ML stack

โค้ดแหล่งที่มา AI

1.0.0
awesome free chatgpt

โค้ดแหล่งที่มา AI

1.0.0
pywin_contextmenu

โค้ดแหล่งที่มา AI

Version update
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด