Metavoice-1B-это базовая модель параметров 1,2B, обучаемая на 100 тыс. Часов речи для TTS (текст в речь). Он был построен со следующими приоритетами:
Мы выпускаем Metavoice-1b по лицензии Apache 2.0, его можно использовать без ограничений .
Веб -интерфейс
docker-compose up -d ui && docker-compose ps && docker-compose logs -fСервер
# navigate to <URL>/docs for API definitions
docker-compose up -d server && docker-compose ps && docker-compose logs -fПредварительные условия:
Настройка среды
# install ffmpeg
wget https://johnvansickle.com/ffmpeg/builds/ffmpeg-git-amd64-static.tar.xz
wget https://johnvansickle.com/ffmpeg/builds/ffmpeg-git-amd64-static.tar.xz.md5
md5sum -c ffmpeg-git-amd64-static.tar.xz.md5
tar xvf ffmpeg-git-amd64-static.tar.xz
sudo mv ffmpeg-git- * -static/ffprobe ffmpeg-git- * -static/ffmpeg /usr/local/bin/
rm -rf ffmpeg-git- *
# install rust if not installed (ensure you've restarted your terminal after installation)
curl --proto ' =https ' --tlsv1.2 -sSf https://sh.rustup.rs | sh # install poetry if not installed (ensure you've restarted your terminal after installation)
pipx install poetry
# disable any conda envs that might interfere with poetry's venv
conda deactivate
# if running from Linux, keyring backend can hang on `poetry install`. This prevents that.
export PYTHON_KEYRING_BACKEND=keyring.backends.fail.Keyring
# pip's dependency resolver will complain, this is temporary expected behaviour
# full inference & finetuning functionality will still be available
poetry install && poetry run pip install torch==2.2.1 torchaudio==2.2.1 ПРИМЕЧАНИЕ 1: При подборе проблем мы попросим вас сначала попробовать поэзию. ПРИМЕЧАНИЕ 2: Все команды в этой README используют poetry по умолчанию, так что вы можете просто удалить любой poetry run .
pip install -r requirements.txt
pip install torch==2.2.1 torchaudio==2.2.1
pip install -e . # You can use `--quantisation_mode int4` or `--quantisation_mode int8` for experimental faster inference. This will degrade the quality of the audio.
# Note: int8 is slower than bf16/fp16 for undebugged reasons. If you want fast, try int4 which is roughly 2x faster than bf16/fp16.
poetry run python -i fam/llm/fast_inference.py
# Run e.g. of API usage within the interactive python session
tts.synthesise(text= " This is a demo of text to speech by MetaVoice-1B, an open-source foundational audio model. " , spk_ref_path= " assets/bria.mp3 " )Примечание. Сценарий требует 30-90-х годов для запуска (в зависимости от аппаратного обеспечения). Это потому, что мы TORCH.compile модель для быстрого вывода.
На AMPERE, ADA-Lovelace и Hopper Architecture Architecture, после составления, API Synthesise () работает быстрее, чем в режиме реального времени, с фактором в реальном времени (RTF) <1,0.
# You can use `--quantisation_mode int4` or `--quantisation_mode int8` for experimental faster inference. This will degrade the quality of the audio.
# Note: int8 is slower than bf16/fp16 for undebugged reasons. If you want fast, try int4 which is roughly 2x faster than bf16/fp16.
# navigate to <URL>/docs for API definitions
poetry run python serving.py
poetry run python app.pyМы поддерживаем PeneTuning первого этапа LLM (см. Раздел архитектуры).
Чтобы Finetune, мы ожидаем, что набор данных CSV «|» в следующем формате:
audio_files|captions
./data/audio.wav|./data/caption.txt
Обратите внимание, что мы не выполняем какие -либо проверки набора данных, поэтому убедитесь, что ваши наборы данных поезда и VAL не совпадают.
Попробуйте это, используя наши образцы наборов данных через:
poetry run finetune --train ./datasets/sample_dataset.csv --val ./datasets/sample_val_dataset.csvПосле обучения своей модели вы можете использовать ее для вывода через:
poetry run python -i fam/llm/fast_inference.py --first_stage_path ./my-finetuned_model.ptЧтобы установить гиперпараметры, такие как скорость обучения, что заморозить и т. Д., Вы можете редактировать файл finetune_params.py.
У нас есть легкая и дополнительная интеграция с W & B, которую можно включить с помощью настройки wandb_log = True и установив соответствующие зависимости.
poetry install -E observableМы предсказываем токены Encodec из текста и информацию о динамике. Затем это распространяется до уровня формы волны, причем пост-обработка применяется для очистки звука.
Модель поддерживает:
Мы благодарны вместе. Ай за их круглосуточную помощь в том, чтобы использовать наш кластер. Мы благодарим команды AWS, GCP и объятия за поддержку с их облачными платформами.
Приносим извинения заранее, если мы кого -то пропустили. Пожалуйста, дайте нам знать, если у нас есть.