Скачать FunCodec - скачать исходный код FunCodec

FunCodec

AI Исходный код

1.0.0

Скачать

Funcodec: фундаментальный, воспроизводимый и интегрируемый инструментарий с открытым исходным кодом для кодека нейронной речи

Этот проект все еще работает над прогрессом. Чтобы сделать Funcodec лучше, пожалуйста, дайте мне знать ваши опасения и не стесняйтесь комментировать их в этой части Issues .

Новости

2023.12.22? Lauratts-это мощный синтезатор с нулевым выстрелом на основе кодека, который превосходит Vall-E с точки зрения семантической последовательности и сходства динамиков. Пожалуйста, обратитесь egs/LibriTTS/text2speech_laura/README.md для получения более подробной информации.

Установка

git clone https://github.com/alibaba/FunCodec.git && cd FunCodec
pip install --editable ./

Доступные модели

? Ссылки на модель Huggingface Model, в то время как ссылается на модели.

Название модели	Модельный центр	Корпус	Битрейт	Параметры	Флопс
AUDIO_CODEC-ENCODEC-ZH_EN-Генерал-16K-NQ32DS640-PYTORCH	?	Общий	250 ~ 8000	57,83 м	7,73 г
audio_codec-encodec-Zh_en-генерал-16K-NQ32DS320-Pytorch	?	Общий	500 ~ 16000	14,85 м	3,72 г
AUDIO_CODEC-ENCODEC-EN-LIBRITTS-16K-NQ32DS640-PYTORCH	?	Libritts	250 ~ 8000	57,83 м	7,73 г
AUDIO_CODEC-ENCODEC-EN-LIBRITTS-16K-NQ32DS320-PYTORCH	?	Libritts	500 ~ 16000	14,85 м	3,72 г
audio_codec-freqcodec_magphase-en-libritts-16k-gr8nq32ds320-pytorch	?	Libritts	500 ~ 16000	4,50 м	2,18 г
audio_codec-freqcodec_magphase-en-libritts-16k-gr1nq32ds320-pytorch	?	Libritts	500 ~ 16000	0,52 м	0,34 г.

Модель скачать

Скачать модели с моделей

Пожалуйста, обратитесь к egs/LibriTTS/codec/encoding_decoding.sh для загрузки предварительно проведенных моделей:

 cd egs/LibriTTS/codec
model_name=audio_codec-encodec-zh_en-general-16k-nq32ds640-pytorch
bash encoding_decoding.sh --stage 0 --model_name ${model_name} --model_hub modelscope
# The pre-trained model will be downloaded to exp/audio_codec-encodec-zh_en-general-16k-nq32ds640-pytorch

Скачать модели с HuggingFace

Пожалуйста, обратитесь к egs/LibriTTS/codec/encoding_decoding.sh для загрузки предварительно проведенных моделей:

 cd egs/LibriTTS/codec
model_name=audio_codec-encodec-zh_en-general-16k-nq32ds640-pytorch
bash encoding_decoding.sh --stage 0 --model_name ${model_name} --model_hub huggingface
# The pre-trained model will be downloaded to exp/audio_codec-encodec-zh_en-general-16k-nq32ds640-pytorch

Вывод

Партийный вывод

Пожалуйста, обратитесь к egs/LibriTTS/codec/encoding_decoding.sh чтобы выполнить кодирование и декодирование. Извлеките коды с помощью входного файла input_wav.scp , и коды будут сохранены в output_dir/codecs.txt в формате jsonl.

 cd egs/LibriTTS/codec
bash encoding_decoding.sh --stage 1 --batch_size 16 --num_workers 4 --gpu_devices " 0,1 " 
  --model_dir exp/ ${model_name} --bit_width 16000 
  --wav_scp input_wav.scp  --out_dir outputs/codecs/
# input_wav.scp has the following format：
# uttid1 path/to/file1.wav
# uttid2 path/to/file2.wav
# ...

Декодируйте коды с помощью входного файла codecs.txt , и реконструированная форма волны будет сохранена в output_dir/logdir/output.*/*.wav .

bash encoding_decoding.sh --stage 2 --batch_size 16 --num_workers 4 --gpu_devices " 0,1 " 
  --model_dir exp/ ${model_name} --bit_width 16000 --file_sampling_rate 16000 
  --wav_scp codecs.txt --out_dir outputs/recon_wavs 
# codecs.scp is the output of above encoding stage, which has the following format：
# uttid1 [[[1, 2, 3, ...],[2, 3, 4, ...], ...]]
# uttid2 [[[9, 7, 5, ...],[3, 1, 2, ...], ...]]

Обучение

Обучение на открытом исходном коде

Для обычно используемых корпораций с открытым исходным кодом вы можете обучить модель, используя рецепт в каталоге egs . Например, для обучения модели на корпусе LibriTTS вы можете использовать egs/LibriTTS/codec/run.sh :

 # entry the LibriTTS recipe directory
cd egs/LibriTTS/codec
# run data downloading, preparation and training stages with 2 GPUs (device 0 and 1)
bash run.sh --stage 0 --stop_stage 3 --gpu_devices 0,1 --gpu_num 2

Мы рекомендуем запустить сценарий сценария на сцене, чтобы получить обзор Funcodec.

Обучение по индивидуальным данным

Для обнаруженных корпусов или настройки данных вы можете подготовить данные самостоятельно. В целом, Funcodec использует файл kaldi-подобного wav.scp для организации файлов данных. wav.scp имеет следующий формат:

 # for waveform files
uttid1 /path/to/uttid1.wav
uttid2 /path/to/uttid2.wav
# for kaldi-ark files
uttid3 /path/to/ark1.wav:10
uttid4 /path/to/ark1.wav:200
uttid5 /path/to/ark2.wav:10

Как показано в приведенном выше примере, Funcodec поддерживает комбинацию сигналов или файлов kaldi-arg в одном файле wav.scp как для обучения, так и для вывода. Вот демонстрационный скрипт для обучения модели в вашем настраиваемом наборе данных с именем foo :

 cd egs/LibriTTS/codec
# 0. make the directory for train, dev and test sets
mkdir -p dump/foo/train dump/foo/dev dump/foo/test

# 1a. if you already have the wav.scp file, just place them under the corresponding directories
mv train.scp dump/foo/train/ ; mv dev.scp dump/foo/dev/ ; mv test.scp dump/foo/test/ ;
# 1b. if you don't have the wav.scp file, you can prepare it as follows
find path/to/train_set/ -iname " *.wav " | awk -F ' / ' ' {print $(NF),$0} ' | sort > dump/foo/train/wav.scp
find path/to/dev_set/   -iname " *.wav " | awk -F ' / ' ' {print $(NF),$0} ' | sort > dump/foo/dev/wav.scp
find path/to/test_set/  -iname " *.wav " | awk -F ' / ' ' {print $(NF),$0} ' | sort > dump/foo/test/wav.scp

# 2. collate shape files
mkdir exp/foo_states/train exp/foo_states/dev
torchrun --nproc_per_node=4 --master_port=1234 scripts/gen_wav_length.py --wav_scp dump/foo/train/wav.scp --out_dir exp/foo_states/train/wav_length
cat exp/foo_states/train/wav_length/wav_length. * .txt | shuf > exp/foo_states/train/speech_shape
torchrun --nproc_per_node=4 --master_port=1234 scripts/gen_wav_length.py --wav_scp dump/foo/dev/wav.scp --out_dir exp/foo_states/dev/wav_length
cat exp/foo_states/dev/wav_length/wav_length. * .txt | shuf > exp/foo_states/dev/speech_shape

# 3. train the model with 2 GPUs (device 4 and 5) on the customized dataset (foo)
bash run.sh --gpu_devices 4,5 --gpu_num 2 --dumpdir dump/foo --state_dir foo_states

Сознавать

У нас был постоянный дизайн funasr, включая DataLoader, модель определения и так далее.
Мы одолжили много кода у Кальди для подготовки данных.
Мы одолжили много кода из ESPNet. Funcodec последующего тренировок и создания трубопроводов ESPNet.
Мы позаимствовали конструкцию модельной архитектуры у Eunocdec и enocdec_trainner.

Лицензия

Этот проект лицензирован по лицензии MIT. Funcodec также содержит различные сторонние компоненты и некоторые код, измененные из других репо, по другим лицензиям с открытым исходным кодом.

Цитаты

 @misc { du2023funcodec ,
      title = { FunCodec: A Fundamental, Reproducible and Integrable Open-source Toolkit for Neural Speech Codec } ,
      author = { Zhihao Du, Shiliang Zhang, Kai Hu, Siqi Zheng } ,
      year = { 2023 } ,
      eprint = { 2309.07405 } ,
      archivePrefix = { arXiv } ,
      primaryClass = { cs.Sound }
}