Metavoice-1b ist ein 1,2B-Parameter-Basismodell, das auf 100.000 Stunden Sprache für TTS (Text-to-Speech) trainiert ist. Es wurde mit den folgenden Prioritäten gebaut:
Wir veröffentlichen Metavoice-1b unter der Apache 2.0-Lizenz, sie kann ohne Einschränkungen verwendet werden .
Web UI
docker-compose up -d ui && docker-compose ps && docker-compose logs -fServer
# navigate to <URL>/docs for API definitions
docker-compose up -d server && docker-compose ps && docker-compose logs -fVoraussetzungen:
Umgebungsaufbau
# install ffmpeg
wget https://johnvansickle.com/ffmpeg/builds/ffmpeg-git-amd64-static.tar.xz
wget https://johnvansickle.com/ffmpeg/builds/ffmpeg-git-amd64-static.tar.xz.md5
md5sum -c ffmpeg-git-amd64-static.tar.xz.md5
tar xvf ffmpeg-git-amd64-static.tar.xz
sudo mv ffmpeg-git- * -static/ffprobe ffmpeg-git- * -static/ffmpeg /usr/local/bin/
rm -rf ffmpeg-git- *
# install rust if not installed (ensure you've restarted your terminal after installation)
curl --proto ' =https ' --tlsv1.2 -sSf https://sh.rustup.rs | sh # install poetry if not installed (ensure you've restarted your terminal after installation)
pipx install poetry
# disable any conda envs that might interfere with poetry's venv
conda deactivate
# if running from Linux, keyring backend can hang on `poetry install`. This prevents that.
export PYTHON_KEYRING_BACKEND=keyring.backends.fail.Keyring
# pip's dependency resolver will complain, this is temporary expected behaviour
# full inference & finetuning functionality will still be available
poetry install && poetry run pip install torch==2.2.1 torchaudio==2.2.1 Hinweis 1: Wenn Sie Probleme aufwerfen, bitten wir Sie, zuerst mit Poesie zu versuchen. ANMERKUNG 2: Alle Befehle in dieser Readme verwenden standardmäßig poetry , sodass Sie einfach jeden poetry run entfernen können.
pip install -r requirements.txt
pip install torch==2.2.1 torchaudio==2.2.1
pip install -e . # You can use `--quantisation_mode int4` or `--quantisation_mode int8` for experimental faster inference. This will degrade the quality of the audio.
# Note: int8 is slower than bf16/fp16 for undebugged reasons. If you want fast, try int4 which is roughly 2x faster than bf16/fp16.
poetry run python -i fam/llm/fast_inference.py
# Run e.g. of API usage within the interactive python session
tts.synthesise(text= " This is a demo of text to speech by MetaVoice-1B, an open-source foundational audio model. " , spk_ref_path= " assets/bria.mp3 " )HINWEIS: Das Skript braucht 30-90s zum Start (abhängig von der Hardware). Dies liegt daran, dass wir das Modell für eine schnelle Inferenz trennen.
Auf Ampere, Ada-Lovelace und Hopper Architecture GPUs läuft die Synthesise () API schneller als Echtzeit mit einem Echtzeitfaktor (RTF) <1,0.
# You can use `--quantisation_mode int4` or `--quantisation_mode int8` for experimental faster inference. This will degrade the quality of the audio.
# Note: int8 is slower than bf16/fp16 for undebugged reasons. If you want fast, try int4 which is roughly 2x faster than bf16/fp16.
# navigate to <URL>/docs for API definitions
poetry run python serving.py
poetry run python app.pyWir unterstützen das Finetuning im LLM der ersten Stufe (siehe Abschnitt Architektur).
Um zu beenden, erwarten wir einen "|" -Delimitierten CSV-Datensatz des folgenden Formats:
audio_files|captions
./data/audio.wav|./data/caption.txt
Beachten Sie, dass wir keine Datensatzüberlappungsprüfungen durchführen. Stellen Sie daher sicher, dass Ihre Zug- und VAL -Datensätze disjunkt sind.
Probieren Sie es mit unseren Beispieldatensätzen aus:
poetry run finetune --train ./datasets/sample_dataset.csv --val ./datasets/sample_val_dataset.csvSobald Sie Ihr Modell ausgebildet haben, können Sie es für Inferenz verwenden:
poetry run python -i fam/llm/fast_inference.py --first_stage_path ./my-finetuned_model.ptUm Hyperparameter wie die Lernrate, das Einfrieren usw. festzulegen, können Sie die Datei finetune_params.py bearbeiten.
Wir haben eine leichte und optionale Integration mit W & B, die über das Einstellen von wandb_log = True & durch Installation der entsprechenden Abhängigkeiten aktiviert werden kann.
poetry install -E observableWir prognostizieren Encodec -Token aus Text- und Sprecherinformationen. Dies wird dann auf die Wellenformebene diffundiert, wobei die Nachbearbeitung zur Reinigung des Audios angewendet wird.
Das Modell unterstützt:
Wir sind zusammen dankbar. Wir danken den Teams von AWS, GCP & Hugging Face für die Unterstützung bei ihren Cloud -Plattformen.
Entschuldigung im Voraus, wenn wir jemanden verpasst haben. Bitte lassen Sie uns wissen, ob wir haben.