SoCodec
1.0.0
이 저장소에는 SOCODEC : SOCODEC : SEMANTIC LANGICE MOLITIENT SPOCTEC CODEC 인 SOCODEC에 대한 추론 스크립트가 포함되어 있으며, 효율적인 언어 모델 기반 텍스트 음성 연사 합성을위한 SEMANTIC에 제목의 멀티 스트림 음성 코덱 에 소개되었습니다.
종이
? 데모 사이트
⚙ 모델 가중치
SOCODEC를 사용하면 오디오를 초소형 0.47kbps 비트 전송률 과 짧은 120ms 프레임 시프트 로 개별 코드로 압축 할 수 있습니다.
? 언어 언어 모델링 응용 프로그램을위한 Encodec 또는 기타 멀티 스트림 코덱의 드롭 인 교체로 사용할 수 있습니다.
출시 된 체크 포인트는 지금만 중국어 만 지원합니다. 다국어 버전의 교육이 진행 중입니다.

저장소를 복제하고 종속성을 설치하십시오.
git clone https://github.com/hhguo/SoCodec
cd SoCodec
mkdir ckpts && cd ckpts
wget https://huggingface.co/TencentGameMate/chinese-hubert-large/resolve/main/chinese-hubert-large-fairseq-ckpt.pt
wget https://huggingface.co/hhguo/SoCodec/resolve/main/socodec_16384x4_120ms_16khz_chinese.safetensors
wget https://huggingface.co/hhguo/SoCodec/resolve/main/mel_vocoder_80dim_10ms_16khz.safetensors # For analysis-synthesis
python example.py -i ground_truth.wav -o synthesis.wav
# For speech analysis
python example.py -i ground_truth.wav -o features.pt
# For token-to-audio synthesis
python example.py -i features.pt -o synthesis.wav우리는 포옹 페이스 컬렉션에 대한 사기꾼 모델을 제공합니다.
| 모델 이름 | 프레임 시프트 | 코드북 크기 | 스트림 수 | 데이터 세트 |
|---|---|---|---|---|
| SOCODEC_16384X4_120MS_16KHZ_CHINESE | 120ms | 16384 | 4 | wenetspeech4tts |
우리는 또한 사전에 걸린 보코더를 제공하여 MEL 스펙트럼을 SOCODEC에서 파형으로 변환합니다.
| 모델 이름 | 프레임 시프트 | 멜 빈 | fmax | 업 샘플링 비율 | 데이터 세트 |
|---|---|---|---|---|---|
| mel_vocoder_80dim_10ms_16khz | 16 kHz | 80 | 8000 | 160 | wenetspeech4tts |