UniCATS CTX txt2vec ดาวน์โหลด - UniCATS CTX txt2vec ซอร์สโค้ดดาวน์โหลดดาวน์โหลด

UniCATS CTX txt2vec

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

CTX-TXT2VEC, โมเดลอะคูสติกที่มีบริบท VQ-diffusion

นี่คือการใช้งานอย่างเป็นทางการของโมเดล CTX-TXT2VEC TTS ใน UNICATS PAPER AAAI-20124: กรอบการใช้ข้อความแบบข้อความบริบทแบบรวมเป็นแบบรวมด้วยบริบท VQ-DIFFUSION และ VOCODING

หลัก

การตั้งค่าสภาพแวดล้อม

repo นี้ได้รับการทดสอบบน Python 3.7 บน Linux คุณสามารถตั้งค่าสภาพแวดล้อมด้วย conda

 # Install required packages
conda create -n ctxt2v python=3.7 # or any name you like
conda activate ctxt2v
pip install -r requirements.txt

ทุกครั้งที่คุณเข้าสู่โครงการนี้คุณสามารถ conda activate ctxt2v หรือ source path.sh

นอกจากนี้คุณสามารถดำเนินการ chmod +x utils/* เพื่อให้แน่ใจว่า scipts เหล่านั้นสามารถเรียกใช้งานได้

การเตรียมข้อมูล

ที่นี่เราใช้ท่อเตรียมการเตรียม Libritts ตัวอย่างเช่น ชุดข้อมูลอื่น ๆ สามารถตั้งค่าได้ในลักษณะเดียวกัน

โปรดดาวน์โหลดข้อมูลจาก HuggingFace (38MB) จากนั้นคลายซิปลงใน data/ ในไดเรกทอรีโครงการ เนื้อหามีดังนี้:

 ├── train_all
│         ├── duration    # the integer duration for each utterance. Frame shift is 10ms.
│         ├── feats.scp   # the VQ index for each utterance. Will be explained later.
│         ├── text   # the phone sequence for each utterance
│         └── utt2num_frames   # the number of frames of each utterance.
├── eval_all
│         ...  # similar four files
│── dev_all
│         ...
└── lang_1phn
          └── train_all_units.txt  # mapping between valid phones and their indexes

ที่นี่ feats.scp เป็นตัวระบุคุณสมบัติ Kaldi-Style ชี้ไปที่ feats/label/.../feats.ark นอกจากนี้เรายังให้บริการออนไลน์ (432MB) ดังนั้นโปรดดาวน์โหลดและคลายซิปเพื่อ feats ในไดเรกทอรีโครงการ คุณสมบัติเหล่านี้เป็นดัชนีแบบแบน 1-D ของคุณสมบัติ VQ-WAV2VEC คุณสามารถตรวจสอบรูปร่างของคุณสมบัติโดย utils/feat-to-shape.py scp:feats/label/dev_all/feats.scp | head . codebook feats/vqidx/codebook.npy มีรูปร่าง [2, 320, 256]

นั่นคือเราแยก codebook disfrete indxes โดยใช้โมเดล VQ-WAV2VEC ของ Fairseq รุ่น Kmeans Librispeech ซึ่งมีดัชนีจำนวนเต็ม 2 กลุ่มแต่ละกลุ่มตั้งแต่ 0 ถึง 319 จากนั้นเราจะพบเหตุการณ์ที่เกิดขึ้นระหว่างดัชนี feats/vqidx/label2vqidx เราใช้ป้ายกำกับ 23632 เพื่อฝึกอบรมรุ่น VQ-diffusion

หลังจากสร้างไดเรกทอรีอย่างถูกต้องโมเดลสามารถได้รับการฝึกฝน

การฝึกอบรม

การฝึกอบรมรุ่น CTX-TXT2VEC สามารถทำได้โดยง่ายๆ

python train.py --name Libritts --config_file configs/Libritts.yaml --num_node 1 --tensorboard --auto_resume

สถานที่ --name ระบุชื่อไดเรกทอรีเอาต์พุต ตรวจสอบ configs/Libritts.yaml สำหรับการกำหนดค่าโดยละเอียด การฝึกอบรม Multi-GPU จะได้รับการจัดการโดยอัตโนมัติโดยโปรแกรม (เริ่มต้นเพื่อใช้อุปกรณ์ที่มองเห็นได้ทั้งหมด)

หลังจากเริ่มการฝึกอบรมจุดตรวจและบันทึกจะถูกบันทึกใน OUTPUT/Libritts

การถอดรหัสไปยังดัชนี VQ

การถอดรหัส CTX-TXT2VEC นั้นอาศัยการแจ้งเตือนที่ให้ข้อมูลตามบริบทเสมอ กล่าวอีกนัยหนึ่งก่อนถอดรหัสควรมีไฟล์ utt2prompt ที่ดูเหมือนว่า:

 1089_134686_000002_000001 1089_134686_000032_000008
1089_134686_000007_000005 1089_134686_000032_000008
1089_134686_000009_000003 1089_134686_000032_000008
1089_134686_000009_000008 1089_134686_000032_000008
1089_134686_000015_000003 1089_134686_000032_000008

ที่ซึ่งทุกบรรทัดถูกจัดระเบียบเป็น utt-to-synthesize prompt-utt คีย์ utt-to-synthesize และ prompt-utt ควรมีอยู่ใน feats.scp สำหรับการจัดทำดัชนี

เราขอแนะนำให้ใช้ไฟล์ Utt2Prompt อย่างเป็นทางการสำหรับชุดทดสอบ B ในกระดาษ คุณสามารถดาวน์โหลดสิ่งนั้นและบันทึกลงใน data/eval_all/utt2prompt

หลังจากนั้นการถอดรหัสด้วยบริบท prepended (aka ต่อเนื่อง) สามารถทำได้โดย

python continuation.py --eval-set eval_all
# will only synthesize utterances in `utt2prompt`. Check the necessary files in `data/${eval_set}`.

Indexes VQ-Decoded (2-DIM) จะถูกบันทึกลงใน OUTPUT/Libritts/syn/${eval_set}/

โปรดทราบว่าแบบจำลองจริงตัวอย่างจาก 23631 VQ "ป้ายกำกับ" ที่แตกต่างกัน ในรหัสนี้เราแปลงกลับเป็นดัชนี VQ 2-DIM โดยใช้ feats/vqidx/label2vqidx

เสียงร้องไปที่ Waveform

สำหรับการจัดเรียงรูปคลื่นคุณแนะนำให้ใช้ "CTX-VEC2WAV" คู่ คุณสามารถตั้งค่า CTX-VEC2WAV โดย

git clone https://github.com/cantabile-kwok/UniCATS-CTX-vec2wav.git

จากนั้นทำตามคำแนะนำด้านสิ่งแวดล้อมที่นั่น

หลังจากถอดรหัสไปยังดัชนี VQ แล้วการร้องเสียงสามารถทำได้โดย

syn_dir= $PWD /OUTPUT/Libritts/syn/eval_all/
utt2prompt_file= $PWD /data/eval_all/utt2prompt
v2w_dir=/path/to/CTX-vec2wav/

cd $v2w_dir || exit 1 ;
source path.sh
# now, in CTX-vec2wav's environment

feat-to-len.py scp: $syn_dir /feats.scp > $syn_dir /utt2num_frames
# construct acoustic prompt specifier (mel spectrograms) using utt2prompt
python ./local/get_prompt_scp.py feats/normed_fbank/eval_all/feats.scp ${utt2prompt_file} > $syn_dir /prompt.scp

decode.py --feats-scp $syn_dir /feats.scp 
          --prompt-scp $syn_dir /prompt.scp 
          --num-frames $syn_dir /utt2num_frames 
          --outdir $syn_dir /wav/ 
          --checkpoint /path/to/checkpoint

การรับทราบ

ในระหว่างการพัฒนาที่เก็บต่อไปนี้ถูกอ้างถึง:

ESPNET สำหรับสถาปัตยกรรมโมเดลใน ctx_text2vec/modeling/transformers/espnet_nets และสคริปต์ยูทิลิตี้ใน utils
Kaldi สำหรับสคริปต์ยูทิลิตี้ส่วนใหญ่ใน utils
VQ-diffusion ซึ่งโครงสร้างแบบจำลองและการฝึกอบรมส่วนใหญ่ได้รับการสืบทอด
CTX-VEC2WAV สำหรับการร้อง!

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท โค้ดแหล่งที่มา AI
เวลาอัปเดต 2025-08-24
ขนาด 548.31KB
มาจาก Github

แอปที่เกี่ยวข้อง

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub the via/releases

2024-11-01

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
ML stack

โค้ดแหล่งที่มา AI

1.0.0
awesome free chatgpt

โค้ดแหล่งที่มา AI

1.0.0
pywin_contextmenu

โค้ดแหล่งที่มา AI

Version update
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด