metavoice src скачать - metavoice src Sround Code Скачать

metavoice src

Другой исходный код

1.0.0

Скачать

Metavoice-1b

Metavoice-1B-это базовая модель параметров 1,2B, обучаемая на 100 тыс. Часов речи для TTS (текст в речь). Он был построен со следующими приоритетами:

Эмоциональная речь ритм и тон на английском языке.
Ноль-выстрел клонирование для американских и британских голосов , со ссылкой на 30-е годы.
Поддержка (кросс-лингального) голосового клонирования с помощью создания .
- Мы добились успеха с лишь 1 -минутными учебными данными для индийских ораторов.
Синтез произвольной длины текста

Мы выпускаем Metavoice-1b по лицензии Apache 2.0, его можно использовать без ограничений .

QuickStart - TL; Dr

Веб -интерфейс

docker-compose up -d ui && docker-compose ps && docker-compose logs -f

Сервер

 # navigate to <URL>/docs for API definitions
docker-compose up -d server && docker-compose ps && docker-compose logs -f

Установка

Предварительные условия:

GPU VRAM> = 12 ГБ
Python> = 3,10, <3.12
PIPX (инструкции по установке)

Настройка среды

 # install ffmpeg
wget https://johnvansickle.com/ffmpeg/builds/ffmpeg-git-amd64-static.tar.xz
wget https://johnvansickle.com/ffmpeg/builds/ffmpeg-git-amd64-static.tar.xz.md5
md5sum -c ffmpeg-git-amd64-static.tar.xz.md5
tar xvf ffmpeg-git-amd64-static.tar.xz
sudo mv ffmpeg-git- * -static/ffprobe ffmpeg-git- * -static/ffmpeg /usr/local/bin/
rm -rf ffmpeg-git- *

# install rust if not installed (ensure you've restarted your terminal after installation)
curl --proto ' =https ' --tlsv1.2 -sSf https://sh.rustup.rs | sh

Установка зависимостей проекта

Используя поэзию
Использование PIP/CONDA

Используя поэзию (рекомендуется)

 # install poetry if not installed (ensure you've restarted your terminal after installation)
pipx install poetry

# disable any conda envs that might interfere with poetry's venv
conda deactivate

# if running from Linux, keyring backend can hang on `poetry install`. This prevents that.
export PYTHON_KEYRING_BACKEND=keyring.backends.fail.Keyring

# pip's dependency resolver will complain, this is temporary expected behaviour
# full inference & finetuning functionality will still be available
poetry install && poetry run pip install torch==2.2.1 torchaudio==2.2.1

Использование PIP/CONDA

ПРИМЕЧАНИЕ 1: При подборе проблем мы попросим вас сначала попробовать поэзию. ПРИМЕЧАНИЕ 2: Все команды в этой README используют poetry по умолчанию, так что вы можете просто удалить любой poetry run .

pip install -r requirements.txt
pip install torch==2.2.1 torchaudio==2.2.1
pip install -e .

Использование

Загрузите его и используйте в любом месте (в том числе локально) с нашей справочной реализацией

 # You can use `--quantisation_mode int4` or `--quantisation_mode int8` for experimental faster inference.  This will degrade the quality of the audio.
# Note: int8 is slower than bf16/fp16 for undebugged reasons. If you want fast, try int4 which is roughly 2x faster than bf16/fp16.
poetry run python -i fam/llm/fast_inference.py

# Run e.g. of API usage within the interactive python session
tts.synthesise(text= " This is a demo of text to speech by MetaVoice-1B, an open-source foundational audio model. " , spk_ref_path= " assets/bria.mp3 " )

Примечание. Сценарий требует 30-90-х годов для запуска (в зависимости от аппаратного обеспечения). Это потому, что мы TORCH.compile модель для быстрого вывода.

На AMPERE, ADA-Lovelace и Hopper Architecture Architecture, после составления, API Synthesise () работает быстрее, чем в режиме реального времени, с фактором в реальном времени (RTF) <1,0.

Развернуть его в любом облаке (AWS/GCP/Azure), используя наш сервер логирования или веб -интерфейс

 # You can use `--quantisation_mode int4` or `--quantisation_mode int8` for experimental faster inference. This will degrade the quality of the audio.
# Note: int8 is slower than bf16/fp16 for undebugged reasons. If you want fast, try int4 which is roughly 2x faster than bf16/fp16.

# navigate to <URL>/docs for API definitions
poetry run python serving.py

poetry run python app.py

Используйте его с помощью обнимающего лица
Google Colab Demo

Тонкая настройка

Мы поддерживаем PeneTuning первого этапа LLM (см. Раздел архитектуры).

Чтобы Finetune, мы ожидаем, что набор данных CSV «|» в следующем формате:

 audio_files|captions
./data/audio.wav|./data/caption.txt

Обратите внимание, что мы не выполняем какие -либо проверки набора данных, поэтому убедитесь, что ваши наборы данных поезда и VAL не совпадают.

Попробуйте это, используя наши образцы наборов данных через:

poetry run finetune --train ./datasets/sample_dataset.csv --val ./datasets/sample_val_dataset.csv

После обучения своей модели вы можете использовать ее для вывода через:

poetry run python -i fam/llm/fast_inference.py --first_stage_path ./my-finetuned_model.pt

Конфигурация

Чтобы установить гиперпараметры, такие как скорость обучения, что заморозить и т. Д., Вы можете редактировать файл finetune_params.py.

У нас есть легкая и дополнительная интеграция с W & B, которую можно включить с помощью настройки wandb_log = True и установив соответствующие зависимости.

poetry install -E observable

Предстоящий

Более быстрый вывод ⚡
Код с тонкой настройкой?
Синтез произвольной длины текста

Архитектура

Мы предсказываем токены Encodec из текста и информацию о динамике. Затем это распространяется до уровня формы волны, причем пост-обработка применяется для очистки звука.

Мы используем причинный GPT, чтобы предсказать первые две иерархии токенов Encodec. Текст и аудио являются частью контекста LLM. Информация о докладчике передается посредством кондиционирования на слое встраивания токена. Этот кондиционер динамика получается из отдельно подготовленной сети проверки динамиков.
- Две иерархии прогнозируются в «сплюсном чередованном» манере, мы предсказываем первый жетон первой иерархии, а затем первый жетон второй иерархии, затем второй токен первой иерархии и так далее.
- Мы используем бесплатную выборку для повышения возможностей клонирования модели.
- Текст токенизирован с использованием пользовательского обученного токеноризатора BPE с 512 токенами.
- Обратите внимание, что мы пропустили прогнозирующие семантические жетоны, как это было сделано в других работах, поскольку мы обнаружили, что это не необходимо строго.
Мы используем некаусный трансформатор (в стиле энкодера), чтобы предсказать остальную часть 6 иерархий из первых двух иерархий. Это супер маленькая модель (параметры ~ 10 млн), и имеет обширное обобщение с нулевым выстрелом для большинства ораторов, которые мы пробовали. Поскольку это не каузал, мы также можем предсказать все временные рамки параллельно.
Мы используем многополосную диффузию для генерации сигналов из токенов Encodec. Мы заметили, что речь более четкая, чем использование оригинального декодера RVQ или Vocos. Тем не менее, диффузия на уровне формы волны оставляет некоторые фоновые артефакты, которые довольно неприятны для уха. Мы убираем это на следующем шаге.
Мы используем DeepFilternet, чтобы очистить артефакты, представленные многополосной диффузией.

Оптимизация

Модель поддерживает:

Кв-кэш-кхэк через флэш-декодирование
Партия (включая тексты разных длин)

Способствовать

Смотрите все активные проблемы!

Благодарности

Мы благодарны вместе. Ай за их круглосуточную помощь в том, чтобы использовать наш кластер. Мы благодарим команды AWS, GCP и объятия за поддержку с их облачными платформами.