Unduh SoCodec - Unduh Kode Sumber SoCodec

SoCodec

Kode Sumber AI

1.0.0

Unduh

SOCODEC: Codec multi-aliran yang dipesan semantik untuk sintesis teks-ke-speech berbasis model bahasa yang efisien

Haohan Guo , Fenglong Xie, Kun Xie, Dongchao Yang, Dake Guo, Xixin Wu, Helen Meng

Repositori ini berisi skrip inferensi untuk SOCODEC, codec ucapan ultra-rendah-bitrat, yang didedikasikan untuk model bahasa ucapan, yang diperkenalkan dalam makalah berjudul Socodec: Codec Pidato Multi-Stream yang dipesan semantik untuk sintesis teks-ke-speech berbasis bahasa yang efisien .

Kertas
? Situs demo
⚙ Bobot model

Dengan SOCODEC, Anda dapat mengompres audio ke dalam kode diskrit pada bitrate sangat rendah 0,47 kbps dan frameshift 120ms pendek .
? Ini dapat digunakan sebagai pengganti drop-in untuk EncodeC atau codec multi-stream lainnya untuk aplikasi pemodelan bahasa bicara.
Pos pemeriksaan yang dirilis hanya mendukung Cina sekarang. Pelatihan versi multi-bahasa sedang berlangsung.

Berita

Sep 2024 (v1.0):
- Kami telah merilis kode pos dan inferensi Socodec

Instalasi

Kloning repositori dan instal dependensi:

git clone https://github.com/hhguo/SoCodec
cd SoCodec
mkdir ckpts && cd ckpts
wget https://huggingface.co/TencentGameMate/chinese-hubert-large/resolve/main/chinese-hubert-large-fairseq-ckpt.pt
wget https://huggingface.co/hhguo/SoCodec/resolve/main/socodec_16384x4_120ms_16khz_chinese.safetensors
wget https://huggingface.co/hhguo/SoCodec/resolve/main/mel_vocoder_80dim_10ms_16khz.safetensors

Penggunaan

 # For analysis-synthesis
python example.py -i ground_truth.wav -o synthesis.wav
# For speech analysis
python example.py -i ground_truth.wav -o features.pt
# For token-to-audio synthesis
python example.py -i features.pt -o synthesis.wav