تنزيل SoCodec - تنزيل رمز المصدر SoCodec

SoCodec

كود الذكاء الاصطناعي

1.0.0

تنزيل

SOCODEC: برنامج ترميز الكلام متعدد البث الدلالي من أجل توليف نص إلى نموذج إلى نماذج اللغة الفعالة

Haohan Guo ، Fenglong Xie ، Kun Xie ، Dongchao Yang ، Dake Guo ، Xixin Wu ، Helen Meng

يحتوي هذا المستودع على البرامج النصية للاستدلال لـ SOCODEC ، وهو برنامج ترميز خطاب في النطاقات منخفضة النطق ، مخصص لنماذج لغة الكلام ، التي تم تقديمها في الورقة بعنوان SOCODEC: ترميز الكلام متعدد الكلام من الدرجة الدلالية لتوليف النص إلى النموذج القائم على اللغة الكفاءة .

ورق
؟ الموقع التجريبي
⚙ الأوزان النموذجية

مع SOCODEC ، يمكنك ضغط الصوت في رموز منفصلة عند معدل بتات منخفضة 0.47 كيلو بايت في الثانية و 120 مللي ثانية .
؟ يمكن استخدامه كبديل إسقاط لـ ENCODEC أو برامج الترميز المتعددة البث الأخرى لتطبيقات نمذجة لغة الكلام.
نقطة التفتيش التي تم إصدارها تدعم الصينية فقط الآن. تدريب النسخة متعددة اللغات قيد التقدم.

أخبار

سبتمبر 2024 (v1.0):
- لقد أصدرنا نقطة التفتيش ودولة الاستدلال لـ SOCODEC

تثبيت

استنساخ المستودع وتثبيت التبعيات:

git clone https://github.com/hhguo/SoCodec
cd SoCodec
mkdir ckpts && cd ckpts
wget https://huggingface.co/TencentGameMate/chinese-hubert-large/resolve/main/chinese-hubert-large-fairseq-ckpt.pt
wget https://huggingface.co/hhguo/SoCodec/resolve/main/socodec_16384x4_120ms_16khz_chinese.safetensors
wget https://huggingface.co/hhguo/SoCodec/resolve/main/mel_vocoder_80dim_10ms_16khz.safetensors

الاستخدام

 # For analysis-synthesis
python example.py -i ground_truth.wav -o synthesis.wav
# For speech analysis
python example.py -i ground_truth.wav -o features.pt
# For token-to-audio synthesis
python example.py -i features.pt -o synthesis.wav