ดาวน์โหลด GenerSpeech - ดาวน์โหลดซอร์สโค้ด GenerSpeech

GenerSpeech

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

Generspeech: ไปสู่การถ่ายโอนสไตล์สำหรับข้อความที่ไม่สามารถพูดได้

Rongjie Huang, Yi Ren, Jinglin Liu, Chenye Cui, Zhou Zhao | มหาวิทยาลัยเจ้อเจียงทะเล AI Lab

การใช้งาน Pytorch ของ Generspeech (Neurips'22): โมเดลข้อความถึงการพูดไปสู่การถ่ายโอนสไตล์การถ่ายโอนแบบศูนย์ความเที่ยงตรงสูงของเสียงที่กำหนดเองของ OOD

เราจัดทำแบบจำลองการใช้งานและแบบจำลองในที่เก็บนี้

เยี่ยมชมหน้าตัวอย่างของเราสำหรับตัวอย่างเสียง

ข่าว

ธันวาคม, 2022: Generspeech (Neurips 2022) เปิดตัวที่ GitHub

คุณสมบัติที่สำคัญ

การถ่ายโอนสไตล์หลายระดับ สำหรับการพูดข้อความเป็นคำพูด
การปรับปรุงรูปแบบทั่วไปของโมเดล เพื่อการอ้างอิงสไตล์การแจกจ่าย (OOD)

เริ่มต้นอย่างรวดเร็ว

เราให้ตัวอย่างของวิธีที่คุณสามารถสร้างตัวอย่างความเที่ยงตรงสูงโดยใช้ Generspeech

หากต้องการลองใช้ชุดข้อมูลของคุณเองเพียงแค่โคลน repo นี้ในเครื่องท้องถิ่นของคุณที่ให้มาพร้อมกับ Nvidia GPU + Cuda Cudnn และทำตามคำแนะนำด้านล่าง

สนับสนุนชุดข้อมูลและโมเดลที่ผ่านการฝึกอบรม

คุณสามารถใช้โมเดลที่ผ่านการฝึกอบรมที่เราให้ไว้ที่นี่และข้อมูลที่นี่ รายละเอียดของแต่ละโฟลเดอร์มีดังนี้:

แบบอย่าง	ชุดข้อมูล (16 kHz)	การถอดความ
เครื่องประดับ	Libritts, ESD	โมเดลอะคูสติก (config)
hifi-gan	Libritts, ESD	ผู้ร้องประสาท
เครื่องเข้ารหัส	-	เครื่องเข้ารหัสอารมณ์

ชุดข้อมูลที่รองรับเพิ่มเติมกำลังจะมาเร็ว ๆ นี้

การพึ่งพาอาศัยกัน

สภาพแวดล้อม conda ที่เหมาะสมชื่อ generspeech สามารถสร้างและเปิดใช้งานได้ด้วย:

 conda env create -f environment.yaml
conda activate generspeech

หลาย GPU

โดยค่าเริ่มต้นการใช้งานนี้ใช้ GPU มากในแบบคู่ขนานตามที่ส่งคืนโดย torch.cuda.device_count() คุณสามารถระบุ GPU ที่จะใช้โดยการตั้งค่าตัวแปรสภาพแวดล้อม CUDA_DEVICES_AVAILABLE ก่อนที่จะเรียกใช้โมดูลการฝึกอบรม

การอนุมาน (Zero-shot TTS)

ที่นี่เราให้บริการไปป์ไลน์การสังเคราะห์คำพูดโดยใช้ Generspeech

เตรียม Generspeech (โมเดลอะคูสติก): ดาวน์โหลดและวางจุดตรวจที่ checkpoints/GenerSpeech
เตรียม hifi-gan (Neural Vocoder): ดาวน์โหลดและวางจุดตรวจที่ checkpoints/trainset_hifigan
เตรียม Emotion Encoder : ดาวน์โหลดและวางจุดตรวจที่ checkpoints/Emotion_encoder.pt
เตรียม ชุดข้อมูล : ดาวน์โหลดและวางไฟล์ทางสถิติที่ data/binary/training_set
เตรียม PATH/to/reference_audio (16K) : โดยค่าเริ่มต้น Generspeech ใช้ ASR + MFA เพื่อรับการจัดตำแหน่งข้อความพูดจากการอ้างอิง

CUDA_VISIBLE_DEVICES= $GPU python inference/GenerSpeech.py --config modules/GenerSpeech/config/generspeech.yaml  --exp_name GenerSpeech --hparams= " text='here we go',ref_audio='assets/0011_001570.wav' "

ไฟล์ WAV ที่สร้างขึ้นจะถูกบันทึกไว้ใน infer_out โดยค่าเริ่มต้น

ฝึกอบรมนางแบบของคุณเอง

การเตรียมข้อมูลและการกำหนดค่า

ตั้งค่า raw_data_dir , processed_data_dir , binary_data_dir ในไฟล์กำหนดค่าและดาวน์โหลดชุดข้อมูลไปยัง raw_data_dir
ตรวจสอบ preprocess_cls ในไฟล์กำหนดค่า โครงสร้างชุดข้อมูลจำเป็นต้องทำตามโปรเซสเซอร์ preprocess_cls หรือคุณสามารถเขียนใหม่ตามชุดข้อมูลของคุณ เราจัดเตรียมโปรเซสเซอร์ Libritts เป็นตัวอย่างใน modules/GenerSpeech/config/generspeech.yaml
ดาวน์โหลด Global Emotion Encoder ไปยัง emotion_encoder_path สำหรับรายละเอียดเพิ่มเติมโปรดดูสาขานี้
ชุดข้อมูลประมวลผลล่วงหน้า

 # Preprocess step: unify the file structure.
python data_gen/tts/bin/preprocess.py --config $path /to/config
# Align step: MFA alignment.
python data_gen/tts/bin/train_mfa_align.py --config $path /to/config
# Binarization step: Binarize data for fast IO.
CUDA_VISIBLE_DEVICES= $GPU python data_gen/tts/bin/binarize.py --config $path /to/config

คุณยังสามารถสร้างชุดข้อมูลผ่าน NatSpeech ซึ่งแบ่งปันขั้นตอนการประมวลผลข้อมูล MFA ทั่วไป นอกจากนี้เรายังให้ชุดข้อมูลที่ประมวลผลของเรา (16KHz Libritts+ESD)

การฝึกอบรม Generspeech

CUDA_VISIBLE_DEVICES= $GPU python tasks/run.py --config modules/GenerSpeech/config/generspeech.yaml  --exp_name GenerSpeech --reset

การอนุมานโดยใช้ generspeech

CUDA_VISIBLE_DEVICES= $GPU python tasks/run.py --config modules/GenerSpeech/config/generspeech.yaml  --exp_name GenerSpeech --infer

กิตติกรรมประกาศ

การใช้งานนี้ใช้ส่วนหนึ่งของรหัสจาก GitHub repos ต่อไปนี้: FastDiff, NatSpeech ตามที่อธิบายไว้ในรหัสของเรา

การอ้างอิง

หากคุณพบว่ารหัสนี้มีประโยชน์ในการวิจัยของคุณโปรดอ้างอิงงานของเรา:

 @inproceedings { huanggenerspeech ,
  title = { GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain Text-to-Speech } ,
  author = { Huang, Rongjie and Ren, Yi and Liu, Jinglin and Cui, Chenye and Zhao, Zhou } ,
  booktitle = { Advances in Neural Information Processing Systems }
}

คำเตือน

องค์กรหรือบุคคลใด ๆ ถูกห้ามไม่ให้ใช้เทคโนโลยีใด ๆ ที่กล่าวถึงในบทความนี้เพื่อสร้างคำพูดของใครบางคนโดยไม่ได้รับความยินยอมจากเขา/เธอรวมถึง แต่ไม่ จำกัด เฉพาะผู้นำรัฐบาลตัวเลขทางการเมืองและคนดัง หากคุณไม่ปฏิบัติตามรายการนี้คุณอาจละเมิดกฎหมายลิขสิทธิ์

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท โค้ดแหล่งที่มา AI
เวลาอัปเดต 2025-08-22
ขนาด 256.8KB
มาจาก Github

แอปที่เกี่ยวข้อง

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
ML stack

โค้ดแหล่งที่มา AI

1.0.0
awesome free chatgpt

โค้ดแหล่งที่มา AI

1.0.0
pywin_contextmenu

โค้ดแหล่งที่มา AI

Version update
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด