SoCodec
1.0.0
该存储库包含Socodec的推理脚本,Socodec是一种专门针对语音语言模型的超低 - 二甲酸盐语音编解码器,在题为“ Socodec:Socodec:一种语义下订购的多流语音编解码器”中介绍,用于有效的语言模型基于语言模型基于文本对语音对语的综合。
纸
?演示网站
⚙模型权重
使用Socodec,您可以以超低0.47 kbps比特率和短短120毫秒的边框将音频压缩为离散代码。
?它可以用作语音语言建模应用程序的Eccodec或其他多流编解码器的倒入替换。
发布的检查站现在仅支持中文。多语言版本的培训正在进行中。

克隆存储库并安装依赖项:
git clone https://github.com/hhguo/SoCodec
cd SoCodec
mkdir ckpts && cd ckpts
wget https://huggingface.co/TencentGameMate/chinese-hubert-large/resolve/main/chinese-hubert-large-fairseq-ckpt.pt
wget https://huggingface.co/hhguo/SoCodec/resolve/main/socodec_16384x4_120ms_16khz_chinese.safetensors
wget https://huggingface.co/hhguo/SoCodec/resolve/main/mel_vocoder_80dim_10ms_16khz.safetensors # For analysis-synthesis
python example.py -i ground_truth.wav -o synthesis.wav
# For speech analysis
python example.py -i ground_truth.wav -o features.pt
# For token-to-audio synthesis
python example.py -i features.pt -o synthesis.wav我们为拥抱面部收藏提供了预审预告片的模型。
| 模型名称 | 框架移动 | 代码书大小 | 流数 | 数据集 |
|---|---|---|---|---|
| SOCODEC_16384X4_120MS_16KHZ_CHINESE | 120ms | 16384 | 4 | wenetspeech4tts |
我们还提供了验证的声音编码器,以将MEL频谱从Socodec转换为波形。
| 模型名称 | 框架移动 | 梅尔垃圾箱 | fmax | 提升比率 | 数据集 |
|---|---|---|---|---|---|
| mel_vocoder_80dim_10ms_16khz | 16 kHz | 80 | 8000 | 160 | wenetspeech4tts |