Este repositorio contiene scripts de inferencia para Socodec, un códec de habla ultra-bajo-bitrato, dedicado a modelos de lenguaje de voz, introducido en el artículo titulado Socodec: un códec de discurso múltiple ordenado semántico para una síntesis eficientes de texto a voz basada en modelos de lenguaje .
Papel
? Sitio de demostración
⚙ Peso del modelo
Con Socodec, puede comprimir el audio en códigos discretos a una tasa de bits ultra baja de 0.47 kbps y un breve desplazamiento de marco de 120 ms .
? Se puede utilizar como reemplazo de entrega para Encodec u otros códecs múltiples para aplicaciones de modelado de lenguaje de voz.
El punto de control lanzado solo admite chino ahora. El entrenamiento de la versión multilingüe está en progreso.

Clon el repositorio e instalación de dependencias:
git clone https://github.com/hhguo/SoCodec
cd SoCodec
mkdir ckpts && cd ckpts
wget https://huggingface.co/TencentGameMate/chinese-hubert-large/resolve/main/chinese-hubert-large-fairseq-ckpt.pt
wget https://huggingface.co/hhguo/SoCodec/resolve/main/socodec_16384x4_120ms_16khz_chinese.safetensors
wget https://huggingface.co/hhguo/SoCodec/resolve/main/mel_vocoder_80dim_10ms_16khz.safetensors # For analysis-synthesis
python example.py -i ground_truth.wav -o synthesis.wav
# For speech analysis
python example.py -i ground_truth.wav -o features.pt
# For token-to-audio synthesis
python example.py -i features.pt -o synthesis.wavProporcionamos los modelos previos a la aparición en las colecciones de cara de abrazo.
| Nombre del modelo | Cambio de marco | Tamaño del libro de códigos | Número de transmisiones | Conjunto de datos |
|---|---|---|---|---|
| SOCODEC_16384X4_120MS_16KHZ_CHINESE | 120 ms | 16384 | 4 | Wenetspeech4tts |
También proporcionamos a los vocoders previos al detenido para convertir el espectrograma MEL de Socodec a la forma de onda.
| Nombre del modelo | Cambio de marco | Mel contenedores | fmax | Relación ascendente | Conjunto de datos |
|---|---|---|---|---|---|
| mel_vocoder_80dim_10ms_16khz | 16 kHz | 80 | 8000 | 160 | Wenetspeech4tts |