Descarga de FunCodec - Descargar el código fuente FunCodec

FunCodec

Código Fuente de IA

1.0.0

Descargar

Funcodec: un kit de herramientas de código abierto fundamental, reproducible e integrable para el códec de habla neuronal

Este proyecto todavía está trabajando en el progreso. Para mejorar los funciones, hágame saber sus inquietudes y no dude en comentarlas en la parte Issues .

Noticias

2023.12.22? Lauratts es un poderoso sintetizador de texto a voz de disparo cero basado en códec, que supera a Vall-E en términos de consistencia semántica y similitud de altavoces. Consulte egs/LibriTTS/text2speech_laura/README.md para obtener más detalles.

Instalación

git clone https://github.com/alibaba/FunCodec.git && cd FunCodec
pip install --editable ./

Modelos disponibles

? Enlaces al Hub Model de Huggingface, mientras que se refiere al ModelsCope.

Nombre del modelo	Modelo	Cuerpo	Tasa de bits	Parámetros	Chocolas
audio_codec-codec-zh_en-General-16k-nq32ds640-pytorch	?	General	250 ~ 8000	57.83 m	7.73g
audio_codec-codec-zh_en-General-16k-nq32ds320-pytorch	?	General	500 ~ 16000	14.85 m	3.72 g
audio_codec-codec-en-libritts-16k-nq32ds640-pytorch	?	Libritts	250 ~ 8000	57.83 m	7.73g
audio_codec-codec-en-libritts-16k-nq32ds320-pytorch	?	Libritts	500 ~ 16000	14.85 m	3.72 g
audio_codec-freqcodec_magphase-en-libritts-16k-gr8nq32ds320-pytorch	?	Libritts	500 ~ 16000	4.50 m	2.18 g
audio_codec-freqcodec_magphase-en-libritts-16k-gr1nq32ds320-pytorch	?	Libritts	500 ~ 16000	0.52 m	0.34 g

Descargar modelo

Descargar modelos de ModelsCope

Consulte egs/LibriTTS/codec/encoding_decoding.sh para descargar modelos previos a la aparición:

 cd egs/LibriTTS/codec
model_name=audio_codec-encodec-zh_en-general-16k-nq32ds640-pytorch
bash encoding_decoding.sh --stage 0 --model_name ${model_name} --model_hub modelscope
# The pre-trained model will be downloaded to exp/audio_codec-encodec-zh_en-general-16k-nq32ds640-pytorch

Descargar modelos de Huggingface

Consulte egs/LibriTTS/codec/encoding_decoding.sh para descargar modelos previos a la aparición:

 cd egs/LibriTTS/codec
model_name=audio_codec-encodec-zh_en-general-16k-nq32ds640-pytorch
bash encoding_decoding.sh --stage 0 --model_name ${model_name} --model_hub huggingface
# The pre-trained model will be downloaded to exp/audio_codec-encodec-zh_en-general-16k-nq32ds640-pytorch

Inferencia

Inferencia por lotes

Consulte egs/LibriTTS/codec/encoding_decoding.sh para realizar la codificación y la decodificación. Extraiga códigos con un archivo de entrada input_wav.scp , y los códigos se guardarán en output_dir/codecs.txt en un formato de JSONL.

 cd egs/LibriTTS/codec
bash encoding_decoding.sh --stage 1 --batch_size 16 --num_workers 4 --gpu_devices " 0,1 " 
  --model_dir exp/ ${model_name} --bit_width 16000 
  --wav_scp input_wav.scp  --out_dir outputs/codecs/
# input_wav.scp has the following format：
# uttid1 path/to/file1.wav
# uttid2 path/to/file2.wav
# ...

Los códigos de decodificación con un codecs.txt de archivo output_dir/logdir/output.*/*.wav entrada.

bash encoding_decoding.sh --stage 2 --batch_size 16 --num_workers 4 --gpu_devices " 0,1 " 
  --model_dir exp/ ${model_name} --bit_width 16000 --file_sampling_rate 16000 
  --wav_scp codecs.txt --out_dir outputs/recon_wavs 
# codecs.scp is the output of above encoding stage, which has the following format：
# uttid1 [[[1, 2, 3, ...],[2, 3, 4, ...], ...]]
# uttid2 [[[9, 7, 5, ...],[3, 1, 2, ...], ...]]

Capacitación

Capacitación en corpus de código abierto

Para los corpus de código abierto comúnmente utilizado, puede capacitar a un modelo utilizando la receta en el directorio egs . Por ejemplo, para entrenar un modelo en el corpus LibriTTS , puede usar egs/LibriTTS/codec/run.sh :

 # entry the LibriTTS recipe directory
cd egs/LibriTTS/codec
# run data downloading, preparation and training stages with 2 GPUs (device 0 and 1)
bash run.sh --stage 0 --stop_stage 3 --gpu_devices 0,1 --gpu_num 2

Recomendamos ejecutar el escenario de script por escenario para tener una descripción general de Funcodec.

Capacitación sobre datos personalizados

Para los corpuses descubiertos o el conjunto de datos personalizado, puede preparar los datos usted mismo. En general, Funcodec emplea el archivo wav.scp tipo kaldi para organizar los archivos de datos. wav.scp tiene el siguiente formato:

 # for waveform files
uttid1 /path/to/uttid1.wav
uttid2 /path/to/uttid2.wav
# for kaldi-ark files
uttid3 /path/to/ark1.wav:10
uttid4 /path/to/ark1.wav:200
uttid5 /path/to/ark2.wav:10

Como se muestra en el ejemplo anterior, Funcodec admite la combinación de formas de onda o archivos Kaldi-ARK en un archivo wav.scp tanto para capacitación como inferencia. Aquí hay un script de demostración para entrenar un modelo en su conjunto de datos personalizado llamado foo :

 cd egs/LibriTTS/codec
# 0. make the directory for train, dev and test sets
mkdir -p dump/foo/train dump/foo/dev dump/foo/test

# 1a. if you already have the wav.scp file, just place them under the corresponding directories
mv train.scp dump/foo/train/ ; mv dev.scp dump/foo/dev/ ; mv test.scp dump/foo/test/ ;
# 1b. if you don't have the wav.scp file, you can prepare it as follows
find path/to/train_set/ -iname " *.wav " | awk -F ' / ' ' {print $(NF),$0} ' | sort > dump/foo/train/wav.scp
find path/to/dev_set/   -iname " *.wav " | awk -F ' / ' ' {print $(NF),$0} ' | sort > dump/foo/dev/wav.scp
find path/to/test_set/  -iname " *.wav " | awk -F ' / ' ' {print $(NF),$0} ' | sort > dump/foo/test/wav.scp

# 2. collate shape files
mkdir exp/foo_states/train exp/foo_states/dev
torchrun --nproc_per_node=4 --master_port=1234 scripts/gen_wav_length.py --wav_scp dump/foo/train/wav.scp --out_dir exp/foo_states/train/wav_length
cat exp/foo_states/train/wav_length/wav_length. * .txt | shuf > exp/foo_states/train/speech_shape
torchrun --nproc_per_node=4 --master_port=1234 scripts/gen_wav_length.py --wav_scp dump/foo/dev/wav.scp --out_dir exp/foo_states/dev/wav_length
cat exp/foo_states/dev/wav_length/wav_length. * .txt | shuf > exp/foo_states/dev/speech_shape

# 3. train the model with 2 GPUs (device 4 and 5) on the customized dataset (foo)
bash run.sh --gpu_devices 4,5 --gpu_num 2 --dumpdir dump/foo --state_dir foo_states

Reconocer

Teníamos un diseño constante de Funasr, incluido Dataloader, definición del modelo, etc.
Tomamos prestado mucho código de Kaldi para la preparación de datos.
Tomamos prestado mucho código de ESPNet. FunCodec sigue las tuberías de entrenamiento y finecing de ESPNet.
Tomamos prestado el diseño de la arquitectura de modelos de EnocDec y EnocDec_trainner.

Licencia

Este proyecto tiene licencia bajo la licencia MIT. Funcodec también contiene varios componentes de terceros y algún código modificado de otros Repos con otras licencias de código abierto.

Citas

 @misc { du2023funcodec ,
      title = { FunCodec: A Fundamental, Reproducible and Integrable Open-source Toolkit for Neural Speech Codec } ,
      author = { Zhihao Du, Shiliang Zhang, Kai Hu, Siqi Zheng } ,
      year = { 2023 } ,
      eprint = { 2309.07405 } ,
      archivePrefix = { arXiv } ,
      primaryClass = { cs.Sound }
}

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-08-21
tamaño 1.25MB
Proviene de Github

Aplicaciones relacionadas

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo