Download metavoice src - Unduh Kode Sumber metavoice src

metavoice src

Kode sumber lainnya

1.0.0

Unduh

Metavoice-1b

Metavoice-1B adalah model dasar parameter 1.2b yang dilatih pada 100k jam pidato untuk TTS (teks-ke-speech). Itu telah dibangun dengan prioritas berikut:

Ritme dan nada ucapan emosional dalam bahasa Inggris.
Kloning zero-shot untuk suara Amerika & Inggris , dengan audio referensi 30-an.
Dukungan untuk kloning suara (lintas-bahasa) dengan finetuning .
- Kami telah sukses dengan data pelatihan 1 menit untuk penutur India.
Sintesis teks panjang sewenang -wenang

Kami merilis Metavoice-1B di bawah lisensi Apache 2.0, dapat digunakan tanpa batasan .

QuickStart - tl; dr

Web UI

docker-compose up -d ui && docker-compose ps && docker-compose logs -f

Server

 # navigate to <URL>/docs for API definitions
docker-compose up -d server && docker-compose ps && docker-compose logs -f

Instalasi

Prasyarat:

GPU VRAM> = 12GB
Python> = 3.10, <3.12
PIPX (instruksi instalasi)

Pengaturan Lingkungan

 # install ffmpeg
wget https://johnvansickle.com/ffmpeg/builds/ffmpeg-git-amd64-static.tar.xz
wget https://johnvansickle.com/ffmpeg/builds/ffmpeg-git-amd64-static.tar.xz.md5
md5sum -c ffmpeg-git-amd64-static.tar.xz.md5
tar xvf ffmpeg-git-amd64-static.tar.xz
sudo mv ffmpeg-git- * -static/ffprobe ffmpeg-git- * -static/ffmpeg /usr/local/bin/
rm -rf ffmpeg-git- *

# install rust if not installed (ensure you've restarted your terminal after installation)
curl --proto ' =https ' --tlsv1.2 -sSf https://sh.rustup.rs | sh

Instalasi dependensi proyek

Menggunakan puisi
Menggunakan Pip/Conda

Menggunakan puisi (disarankan)

 # install poetry if not installed (ensure you've restarted your terminal after installation)
pipx install poetry

# disable any conda envs that might interfere with poetry's venv
conda deactivate

# if running from Linux, keyring backend can hang on `poetry install`. This prevents that.
export PYTHON_KEYRING_BACKEND=keyring.backends.fail.Keyring

# pip's dependency resolver will complain, this is temporary expected behaviour
# full inference & finetuning functionality will still be available
poetry install && poetry run pip install torch==2.2.1 torchaudio==2.2.1

Menggunakan Pip/Conda

Catatan 1: Saat mengangkat masalah, kami akan meminta Anda untuk mencoba dengan puisi terlebih dahulu. CATATAN 2: Semua perintah dalam readme ini menggunakan poetry secara default, sehingga Anda bisa menghapus poetry run apa pun.

pip install -r requirements.txt
pip install torch==2.2.1 torchaudio==2.2.1
pip install -e .

Penggunaan

Unduh dan gunakan di mana saja (termasuk lokal) dengan implementasi referensi kami

 # You can use `--quantisation_mode int4` or `--quantisation_mode int8` for experimental faster inference.  This will degrade the quality of the audio.
# Note: int8 is slower than bf16/fp16 for undebugged reasons. If you want fast, try int4 which is roughly 2x faster than bf16/fp16.
poetry run python -i fam/llm/fast_inference.py

# Run e.g. of API usage within the interactive python session
tts.synthesise(text= " This is a demo of text to speech by MetaVoice-1B, an open-source foundational audio model. " , spk_ref_path= " assets/bria.mp3 " )

Catatan: Skrip membutuhkan 30-90-an untuk startup (tergantung pada perangkat keras). Ini karena kami obor. Model untuk inferensi cepat.

Pada Ampere, ADA-Lovelace, dan Hopper Architecture GPU, setelah dikompilasi, Sintesise () API berjalan lebih cepat daripada real-time, dengan faktor real-time (RTF) <1,0.

Menyebarkannya di cloud apa pun (AWS/GCP/AZURE), menggunakan server inferensi kami atau Web UI

 # You can use `--quantisation_mode int4` or `--quantisation_mode int8` for experimental faster inference. This will degrade the quality of the audio.
# Note: int8 is slower than bf16/fp16 for undebugged reasons. If you want fast, try int4 which is roughly 2x faster than bf16/fp16.

# navigate to <URL>/docs for API definitions
poetry run python serving.py

poetry run python app.py

Gunakan itu melalui wajah pelukan
Demo Google Colab

Finetuning

Kami mendukung Finetuning The First Stage LLM (lihat bagian Arsitektur).

Untuk Finetune, kami mengharapkan dataset CSV "|" dari format berikut:

 audio_files|captions
./data/audio.wav|./data/caption.txt

Perhatikan bahwa kami tidak melakukan pemeriksaan tumpang tindih dataset apa pun, jadi pastikan bahwa dataset kereta dan Val Anda terputus -putus.

Cobalah menggunakan dataset sampel kami melalui:

poetry run finetune --train ./datasets/sample_dataset.csv --val ./datasets/sample_val_dataset.csv

Setelah Anda melatih model Anda, Anda dapat menggunakannya untuk inferensi melalui:

poetry run python -i fam/llm/fast_inference.py --first_stage_path ./my-finetuned_model.pt

Konfigurasi

Untuk mengatur hyperparameter seperti tingkat belajar, apa yang harus dibekukan, dll, Anda dapat mengedit file finetune_params.py.

Kami memiliki integrasi cahaya & opsional dengan W&B yang dapat diaktifkan melalui pengaturan wandb_log = True & dengan menginstal dependensi yang sesuai.

poetry install -E observable

Mendatang

Inferensi lebih cepat ⚡
Kode penyesuaian?
Sintesis teks panjang sewenang -wenang

Arsitektur

Kami memprediksi token Encodec dari teks, dan informasi speaker. Ini kemudian disebarkan hingga tingkat bentuk gelombang, dengan pasca pemrosesan diterapkan untuk membersihkan audio.

Kami menggunakan GPT kausal untuk memprediksi dua hierarki pertama token Encodec. Teks dan audio adalah bagian dari konteks LLM. Informasi speaker dilewatkan melalui pengkondisian di lapisan embedding token. Pengkondisian speaker ini diperoleh dari jaringan verifikasi speaker yang terlatih secara terpisah.
- Kedua hierarki diprediksi dengan cara yang "diselingi", kami memprediksi token pertama dari hierarki pertama, kemudian token pertama dari hierarki kedua, kemudian token kedua dari hierarki pertama, dan sebagainya.
- Kami menggunakan pengambilan sampel bebas kondisi untuk meningkatkan kemampuan kloning model.
- Teks ini ditandatkan menggunakan tokeniser BPE yang terlatih khusus dengan 512 token.
- Perhatikan bahwa kami telah melewatkan memprediksi token semantik seperti yang dilakukan dalam pekerjaan lain, karena kami menemukan bahwa ini tidak sepenuhnya diperlukan.
Kami menggunakan transformator non-kausal (encoder-style) untuk memprediksi sisa 6 hierarki dari dua hierarki pertama. Ini adalah model super kecil (~ 10mn parameter), dan memiliki generalisasi nol-shot yang luas untuk sebagian besar pembicara yang telah kami coba. Karena ini non-kausal, kami juga dapat memprediksi semua waktu secara paralel.
Kami menggunakan difusi multi-band untuk menghasilkan bentuk gelombang dari token EncodeC. Kami memperhatikan bahwa pidato lebih jelas daripada menggunakan decoder atau voco RVQ asli. Namun, difusi pada tingkat gelombang meninggalkan beberapa artefak latar belakang yang cukup tidak menyenangkan bagi telinga. Kami membersihkan ini di langkah berikutnya.
Kami menggunakan DeepFilternet untuk membersihkan artefak yang diperkenalkan oleh difusi multi-band.

Optimisasi

Model mendukung:

KV-CACHING Via Flash Decoding
Batching (termasuk teks dengan panjang yang berbeda)

Menyumbang

Lihat semua masalah aktif!

Ucapan Terima Kasih

Kami berterima kasih kepada Together.AI atas bantuan 24/7 mereka dalam mengarsipkan cluster kami. Kami berterima kasih kepada tim AWS, GCP & memeluk wajah atas dukungan dengan platform cloud mereka.

Défossez et. al. untuk encodec.
RS ROMAN ET. al. untuk difusi multiband.
@liusongxiang untuk implementasi encoder speaker.
@karpathy untuk nanogpt yang menjadi dasar implementasi inferensi kami.
@Rikorose untuk DeepFilternet.

Permintaan maaf sebelumnya jika kami melewatkan siapa pun. Beri tahu kami jika kami punya.

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-02-24
ukuran 1.16MB
Berasal dari Github

Aplikasi Terkait

src

2024-11-09
GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Kode sumber lainnya

1.0.0
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Kode sumber lainnya

1.0.0

Informasi Terkait Semua