metavoice src Download - metavoice src Quellcode Download

metavoice src

Anderer Quellcode

1.0.0

Herunterladen

Metavoice-1b

Metavoice-1b ist ein 1,2B-Parameter-Basismodell, das auf 100.000 Stunden Sprache für TTS (Text-to-Speech) trainiert ist. Es wurde mit den folgenden Prioritäten gebaut:

Emotionaler Sprachrhythmus und Ton auf Englisch.
Zero-Shot-Klonen für amerikanische und britische Stimmen mit 30S-Referenz-Audio.
Unterstützung für (Kreuzsprachiger) Sprachkloning mit Finetuning .
- Wir hatten Erfolg mit nur 1 -minütigen Trainingsdaten für indische Sprecher.
Synthese des beliebigen Längentextes

Wir veröffentlichen Metavoice-1b unter der Apache 2.0-Lizenz, sie kann ohne Einschränkungen verwendet werden .

QuickStart - tl; dr

Web UI

docker-compose up -d ui && docker-compose ps && docker-compose logs -f

Server

 # navigate to <URL>/docs for API definitions
docker-compose up -d server && docker-compose ps && docker-compose logs -f

Installation

Voraussetzungen:

GPU VRAM> = 12 GB
Python> = 3,10, <3,12
PIPX (Installationsanweisungen)

Umgebungsaufbau

 # install ffmpeg
wget https://johnvansickle.com/ffmpeg/builds/ffmpeg-git-amd64-static.tar.xz
wget https://johnvansickle.com/ffmpeg/builds/ffmpeg-git-amd64-static.tar.xz.md5
md5sum -c ffmpeg-git-amd64-static.tar.xz.md5
tar xvf ffmpeg-git-amd64-static.tar.xz
sudo mv ffmpeg-git- * -static/ffprobe ffmpeg-git- * -static/ffmpeg /usr/local/bin/
rm -rf ffmpeg-git- *

# install rust if not installed (ensure you've restarted your terminal after installation)
curl --proto ' =https ' --tlsv1.2 -sSf https://sh.rustup.rs | sh

Projektabhängigkeiten Installation

Mit Poesie
Verwenden von PIP/Conda

Verwenden von Poesie (empfohlen)

 # install poetry if not installed (ensure you've restarted your terminal after installation)
pipx install poetry

# disable any conda envs that might interfere with poetry's venv
conda deactivate

# if running from Linux, keyring backend can hang on `poetry install`. This prevents that.
export PYTHON_KEYRING_BACKEND=keyring.backends.fail.Keyring

# pip's dependency resolver will complain, this is temporary expected behaviour
# full inference & finetuning functionality will still be available
poetry install && poetry run pip install torch==2.2.1 torchaudio==2.2.1

Verwenden von PIP/Conda

Hinweis 1: Wenn Sie Probleme aufwerfen, bitten wir Sie, zuerst mit Poesie zu versuchen. ANMERKUNG 2: Alle Befehle in dieser Readme verwenden standardmäßig poetry , sodass Sie einfach jeden poetry run entfernen können.

pip install -r requirements.txt
pip install torch==2.2.1 torchaudio==2.2.1
pip install -e .

Verwendung

Laden Sie es herunter und verwenden Sie es überall (einschließlich lokal) mit unserer Referenzimplementierung

 # You can use `--quantisation_mode int4` or `--quantisation_mode int8` for experimental faster inference.  This will degrade the quality of the audio.
# Note: int8 is slower than bf16/fp16 for undebugged reasons. If you want fast, try int4 which is roughly 2x faster than bf16/fp16.
poetry run python -i fam/llm/fast_inference.py

# Run e.g. of API usage within the interactive python session
tts.synthesise(text= " This is a demo of text to speech by MetaVoice-1B, an open-source foundational audio model. " , spk_ref_path= " assets/bria.mp3 " )

HINWEIS: Das Skript braucht 30-90s zum Start (abhängig von der Hardware). Dies liegt daran, dass wir das Modell für eine schnelle Inferenz trennen.

Auf Ampere, Ada-Lovelace und Hopper Architecture GPUs läuft die Synthesise () API schneller als Echtzeit mit einem Echtzeitfaktor (RTF) <1,0.

Stellen Sie es in jeder Cloud (AWS/GCP/Azure) mit unserem Inferenzserver oder unserer Web -Benutzeroberfläche ein

 # You can use `--quantisation_mode int4` or `--quantisation_mode int8` for experimental faster inference. This will degrade the quality of the audio.
# Note: int8 is slower than bf16/fp16 for undebugged reasons. If you want fast, try int4 which is roughly 2x faster than bf16/fp16.

# navigate to <URL>/docs for API definitions
poetry run python serving.py

poetry run python app.py

Verwenden Sie es über das Gesicht des Gesichts
Google Colab Demo

Feinabstimmung

Wir unterstützen das Finetuning im LLM der ersten Stufe (siehe Abschnitt Architektur).

Um zu beenden, erwarten wir einen "|" -Delimitierten CSV-Datensatz des folgenden Formats:

 audio_files|captions
./data/audio.wav|./data/caption.txt

Beachten Sie, dass wir keine Datensatzüberlappungsprüfungen durchführen. Stellen Sie daher sicher, dass Ihre Zug- und VAL -Datensätze disjunkt sind.

Probieren Sie es mit unseren Beispieldatensätzen aus:

poetry run finetune --train ./datasets/sample_dataset.csv --val ./datasets/sample_val_dataset.csv

Sobald Sie Ihr Modell ausgebildet haben, können Sie es für Inferenz verwenden:

poetry run python -i fam/llm/fast_inference.py --first_stage_path ./my-finetuned_model.pt

Konfiguration

Um Hyperparameter wie die Lernrate, das Einfrieren usw. festzulegen, können Sie die Datei finetune_params.py bearbeiten.

Wir haben eine leichte und optionale Integration mit W & B, die über das Einstellen von wandb_log = True & durch Installation der entsprechenden Abhängigkeiten aktiviert werden kann.

poetry install -E observable

Bevorstehend

Schneller Inferenz ⚡
Feinabstimmungscode?
Synthese des beliebigen Längentextes

Architektur

Wir prognostizieren Encodec -Token aus Text- und Sprecherinformationen. Dies wird dann auf die Wellenformebene diffundiert, wobei die Nachbearbeitung zur Reinigung des Audios angewendet wird.

Wir verwenden eine kausale GPT, um die ersten beiden Hierarchien von CCODEC -Token vorherzusagen. Text und Audio sind Teil des LLM -Kontexts. Die Informationen zur Lautsprecher werden durch die Konditionierung an der Token -Einbettungsschicht übergeben. Diese Lautsprecherkonditionierung wird von einem separat geschulten Lautsprecherverifizierungsnetzwerk erhalten.
- Die beiden Hierarchien werden in einer "abgeflachten verschachtelten" Weise vorhergesagt. Wir sagen das erste Token der ersten Hierarchie voraus, dann das erste Token der zweiten Hierarchie, dann das zweite Token der ersten Hierarchie usw.
- Wir verwenden eine konditionsfreie Abtastung, um die Klonierungsfähigkeit des Modells zu steigern.
- Der Text wird mit einem benutzerdefinierten BPE -Tokener mit 512 Token tokenisiert.
- Beachten Sie, dass wir die Vorhersage semantischer Token wie in anderen Arbeiten übersprungen haben, da wir festgestellt haben, dass dies nicht streng notwendig ist.
Wir verwenden einen nicht-kausalen (Encoder-Stil) -Transformator, um den Rest der 6 Hierarchien aus den ersten beiden Hierarchien vorherzusagen. Dies ist ein super kleines Modell (~ 10 Mio. Parameter) und verfügt über eine umfangreiche Verallgemeinerung von Null-Shot-Verallgemeinerung für die meisten Redner, die wir ausprobiert haben. Da es nicht kausal ist, können wir auch alle Zeitschritte parallel vorhersagen.
Wir verwenden Multi-Band-Diffusion, um Wellenformen aus den CCODEC-Token zu erzeugen. Wir haben festgestellt, dass die Rede klarer ist als die Verwendung des ursprünglichen RVQ -Decoders oder des Vokos. Die Diffusion auf Wellenformebene hinterlässt jedoch einige Hintergrundartefakte, die für das Ohr ziemlich unangenehm sind. Wir räumen dies im nächsten Schritt auf.
Wir verwenden DeepFilternet, um die Artefakte zu beseitigen, die durch die Mehrbanddiffusion eingeführt wurden.

Optimierungen

Das Modell unterstützt:

KV-Caching über Flash-Dekodierung
Batching (einschließlich Texte unterschiedlicher Längen)

Beitragen

Sehen Sie alle aktiven Probleme!

Anerkennung

Wir sind zusammen dankbar. Wir danken den Teams von AWS, GCP & Hugging Face für die Unterstützung bei ihren Cloud -Plattformen.

Ein Défossez ET. al. Für CCODEC.
RS Roman ET. al. Für Multiband -Diffusion.
@liusongxiang für die Implementierung von Sprecher -Encoder.
@karpathie für nanogpt, auf der unsere Inferenzimplementierung basiert.
@Rikorose für DeepFilternet.

Entschuldigung im Voraus, wenn wir jemanden verpasst haben. Bitte lassen Sie uns wissen, ob wir haben.

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ Anderer Quellcode
Aktualisierungszeit 2025-02-24
Größe 1.16MB
Kommt von Github

Ähnliche Anwendungen

src

2024-11-09
GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01

metavoice src

Metavoice-1b

QuickStart - tl; dr

Installation

Projektabhängigkeiten Installation

Verwenden von Poesie (empfohlen)

Verwenden von PIP/Conda

Verwendung

Feinabstimmung

Konfiguration

Bevorstehend

Architektur

Optimierungen

Beitragen

Anerkennung

src

GitHub sgrebnov/cordova plugin background download

Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

hidusbf

Google Dorks

shepherd

hidusbf