พื้นที่เก็บข้อมูลนี้มีสคริปต์การอนุมานสำหรับ SOCODEC ซึ่งเป็นตัวแปลงสัญญาณเสียงพูดที่ต่ำเป็นพิเศษซึ่งอุทิศให้กับแบบจำลองภาษาพูดที่แนะนำในกระดาษชื่อ SOCODEC: ตัวแปลงสัญญาณเสียงพูดหลายสตรีมที่มีความหมายหลายแบบ
กระดาษ
- เว็บไซต์สาธิต
⚙น้ำหนักรุ่น
ด้วย SOCODEC คุณสามารถบีบ อัดเสียง ลงในรหัสที่ไม่ต่อเนื่องที่ บิตเทรต 0.47 kbps ต่ำพิเศษ และ เฟรมสั้น 120ms สั้น
- มันสามารถใช้เป็นการแทนที่แบบดรอปอินสำหรับ encodec หรือตัวแปลงสัญญาณหลายสตรีมอื่น ๆ สำหรับแอปพลิเคชันการสร้างแบบจำลองภาษาพูด
จุดตรวจที่ปล่อยออกมารองรับ ภาษาจีน เท่านั้นตอนนี้ การฝึกอบรมของเวอร์ชันหลายภาษากำลังดำเนินการ

โคลนที่เก็บและติดตั้งการพึ่งพา:
git clone https://github.com/hhguo/SoCodec
cd SoCodec
mkdir ckpts && cd ckpts
wget https://huggingface.co/TencentGameMate/chinese-hubert-large/resolve/main/chinese-hubert-large-fairseq-ckpt.pt
wget https://huggingface.co/hhguo/SoCodec/resolve/main/socodec_16384x4_120ms_16khz_chinese.safetensors
wget https://huggingface.co/hhguo/SoCodec/resolve/main/mel_vocoder_80dim_10ms_16khz.safetensors # For analysis-synthesis
python example.py -i ground_truth.wav -o synthesis.wav
# For speech analysis
python example.py -i ground_truth.wav -o features.pt
# For token-to-audio synthesis
python example.py -i features.pt -o synthesis.wavเราจัดทำแบบจำลองที่ได้รับการฝึกฝนเกี่ยวกับคอลเล็กชั่นการกอดใบหน้า
| ชื่อนางแบบ | กะเฟรม | ขนาดของรหัส | จำนวนสตรีม | ชุดข้อมูล |
|---|---|---|---|---|
| SOCODEC_16384X4_120MS_16KHZ_CHINESE | 120ms | 16384 | 4 | WenetSpeech4tts |
นอกจากนี้เรายังให้คำแนะนำที่ได้รับการฝึกฝนเพื่อแปลง MEL spectrogram จาก Socodec เป็นรูปคลื่น
| ชื่อนางแบบ | กะเฟรม | Mel Bins | fmax | อัตราส่วนการสุ่มตัวอย่าง | ชุดข้อมูล |
|---|---|---|---|---|---|
| mel_vocoder_80dim_10ms_16khz | 16 kHz | 80 | 8000 | 160 | WenetSpeech4tts |