Ce référentiel contient des scripts d'inférence pour SOCODEC, un codec de vocation ultra-low-bitrate, dédié aux modèles de langage de la parole, introduit dans l'article intitulé SocoDec: A sémantique de codec de discours multi-flux ordonné pour un modèle de langage efficace basé sur le texte-parole .
Papier
? Site de démonstration
⚙ Poids du modèle
Avec SOCODEC, vous pouvez compresser l'audio en codes discrets à un débit binaire ultra faible de 0,47 kbps et un court cadre de 120 ms .
? Il peut être utilisé comme remplacement d'allumage pour l'encodie ou d'autres codecs multi-flux pour les applications de modélisation du langage vocal.
Le point de contrôle publié ne prend en charge que le chinois maintenant. La formation de la version multilingue est en cours.

Clone le référentiel et les dépendances d'installation:
git clone https://github.com/hhguo/SoCodec
cd SoCodec
mkdir ckpts && cd ckpts
wget https://huggingface.co/TencentGameMate/chinese-hubert-large/resolve/main/chinese-hubert-large-fairseq-ckpt.pt
wget https://huggingface.co/hhguo/SoCodec/resolve/main/socodec_16384x4_120ms_16khz_chinese.safetensors
wget https://huggingface.co/hhguo/SoCodec/resolve/main/mel_vocoder_80dim_10ms_16khz.safetensors # For analysis-synthesis
python example.py -i ground_truth.wav -o synthesis.wav
# For speech analysis
python example.py -i ground_truth.wav -o features.pt
# For token-to-audio synthesis
python example.py -i features.pt -o synthesis.wavNous fournissons les modèles pré-entraînés sur les collections de visage étreintes.
| Nom du modèle | Changement de cadre | Taille du livre de codes | Nombre de flux | Ensemble de données |
|---|---|---|---|---|
| SOCODec_16384x4_120ms_16khz_chinese | 120 ms | 16384 | 4 | Wenetspeech4tts |
Nous fournissons également les vocodeurs pré-entraînés pour convertir le spectrogramme MEL de SocoDec à la forme d'onde.
| Nom du modèle | Changement de cadre | Bacs mel | fmax | Ratio de mise à l'échantillonnage | Ensemble de données |
|---|---|---|---|---|---|
| MEL_VOCODER_80DIM_10MS_16KHZ | 16 kHz | 80 | 8000 | 160 | Wenetspeech4tts |