Этот репозиторий содержит сценарии вывода для SocoDec, ультра-низко-битратного речевого кодека, посвященного моделям речевого языка, представленного в статье под названием SoCodec: многообороченный многопоточный кодек речевого речи для эффективного синтеза текста в рече .
Бумага
? Демо -сайт
⚙ Веса модели
С SoCodec вы можете сжать аудио в дискретные коды на ультра низком уровне 0,47 кбит / с битрейта и короткого съемки на 120 мс .
? Его можно использовать в качестве замены замены для ENCODEC или других многопоточных кодеков для приложений моделирования речевого языка.
Выпущенный контрольно -пропускной пункт теперь поддерживает только китайский . Обучение многоязычной версии ведется.

Клонировать хранилище и установить зависимости:
git clone https://github.com/hhguo/SoCodec
cd SoCodec
mkdir ckpts && cd ckpts
wget https://huggingface.co/TencentGameMate/chinese-hubert-large/resolve/main/chinese-hubert-large-fairseq-ckpt.pt
wget https://huggingface.co/hhguo/SoCodec/resolve/main/socodec_16384x4_120ms_16khz_chinese.safetensors
wget https://huggingface.co/hhguo/SoCodec/resolve/main/mel_vocoder_80dim_10ms_16khz.safetensors # For analysis-synthesis
python example.py -i ground_truth.wav -o synthesis.wav
# For speech analysis
python example.py -i ground_truth.wav -o features.pt
# For token-to-audio synthesis
python example.py -i features.pt -o synthesis.wavМы предоставляем предварительные модели для обнимающих коллекций лица.
| Название модели | Сдвиг кадра | Размер кодовой книги | Количество потоков | Набор данных |
|---|---|---|---|---|
| SOCODEC_16384X4_120MS_16KHZ_CHINESE | 120 мс | 16384 | 4 | Wenetspeech4tts |
Мы также предоставляем предварительному вокаду для преобразования спектрограммы MEL из SocoDec в форму волны.
| Название модели | Сдвиг кадра | Мел корзины | Fmax | Коэффициент повышения дискретизации | Набор данных |
|---|---|---|---|---|---|
| MEL_VOCODER_80DIM_10MS_16KHZ | 16 кГц | 80 | 8000 | 160 | Wenetspeech4tts |