SoCodec
1.0.0
該存儲庫包含Socodec的推理腳本,Socodec是一種專門針對語音語言模型的超低 - 二甲酸鹽語音編解碼器,在題為“ Socodec:Socodec:一種語義下訂購的多流語音編解碼器”中介紹,用於有效的語言模型基於語言模型基於文本對語音對語的綜合。
紙
?演示網站
⚙模型權重
使用Socodec,您可以以超低0.47 kbps比特率和短短120毫秒的邊框將音頻壓縮為離散代碼。
?它可以用作語音語言建模應用程序的Eccodec或其他多流編解碼器的倒入替換。
發布的檢查站現在僅支持中文。多語言版本的培訓正在進行中。

克隆存儲庫並安裝依賴項:
git clone https://github.com/hhguo/SoCodec
cd SoCodec
mkdir ckpts && cd ckpts
wget https://huggingface.co/TencentGameMate/chinese-hubert-large/resolve/main/chinese-hubert-large-fairseq-ckpt.pt
wget https://huggingface.co/hhguo/SoCodec/resolve/main/socodec_16384x4_120ms_16khz_chinese.safetensors
wget https://huggingface.co/hhguo/SoCodec/resolve/main/mel_vocoder_80dim_10ms_16khz.safetensors # For analysis-synthesis
python example.py -i ground_truth.wav -o synthesis.wav
# For speech analysis
python example.py -i ground_truth.wav -o features.pt
# For token-to-audio synthesis
python example.py -i features.pt -o synthesis.wav我們為擁抱面部收藏提供了預審預告片的模型。
| 模型名稱 | 框架移動 | 代碼書大小 | 流數 | 數據集 |
|---|---|---|---|---|
| SOCODEC_16384X4_120MS_16KHZ_CHINESE | 120ms | 16384 | 4 | wenetspeech4tts |
我們還提供了驗證的聲音編碼器,以將MEL頻譜從Socodec轉換為波形。
| 模型名稱 | 框架移動 | 梅爾垃圾箱 | fmax | 提升比率 | 數據集 |
|---|---|---|---|---|---|
| mel_vocoder_80dim_10ms_16khz | 16 kHz | 80 | 8000 | 160 | wenetspeech4tts |