Metavoice-1B adalah model dasar parameter 1.2b yang dilatih pada 100k jam pidato untuk TTS (teks-ke-speech). Itu telah dibangun dengan prioritas berikut:
Kami merilis Metavoice-1B di bawah lisensi Apache 2.0, dapat digunakan tanpa batasan .
Web UI
docker-compose up -d ui && docker-compose ps && docker-compose logs -fServer
# navigate to <URL>/docs for API definitions
docker-compose up -d server && docker-compose ps && docker-compose logs -fPrasyarat:
Pengaturan Lingkungan
# install ffmpeg
wget https://johnvansickle.com/ffmpeg/builds/ffmpeg-git-amd64-static.tar.xz
wget https://johnvansickle.com/ffmpeg/builds/ffmpeg-git-amd64-static.tar.xz.md5
md5sum -c ffmpeg-git-amd64-static.tar.xz.md5
tar xvf ffmpeg-git-amd64-static.tar.xz
sudo mv ffmpeg-git- * -static/ffprobe ffmpeg-git- * -static/ffmpeg /usr/local/bin/
rm -rf ffmpeg-git- *
# install rust if not installed (ensure you've restarted your terminal after installation)
curl --proto ' =https ' --tlsv1.2 -sSf https://sh.rustup.rs | sh # install poetry if not installed (ensure you've restarted your terminal after installation)
pipx install poetry
# disable any conda envs that might interfere with poetry's venv
conda deactivate
# if running from Linux, keyring backend can hang on `poetry install`. This prevents that.
export PYTHON_KEYRING_BACKEND=keyring.backends.fail.Keyring
# pip's dependency resolver will complain, this is temporary expected behaviour
# full inference & finetuning functionality will still be available
poetry install && poetry run pip install torch==2.2.1 torchaudio==2.2.1 Catatan 1: Saat mengangkat masalah, kami akan meminta Anda untuk mencoba dengan puisi terlebih dahulu. CATATAN 2: Semua perintah dalam readme ini menggunakan poetry secara default, sehingga Anda bisa menghapus poetry run apa pun.
pip install -r requirements.txt
pip install torch==2.2.1 torchaudio==2.2.1
pip install -e . # You can use `--quantisation_mode int4` or `--quantisation_mode int8` for experimental faster inference. This will degrade the quality of the audio.
# Note: int8 is slower than bf16/fp16 for undebugged reasons. If you want fast, try int4 which is roughly 2x faster than bf16/fp16.
poetry run python -i fam/llm/fast_inference.py
# Run e.g. of API usage within the interactive python session
tts.synthesise(text= " This is a demo of text to speech by MetaVoice-1B, an open-source foundational audio model. " , spk_ref_path= " assets/bria.mp3 " )Catatan: Skrip membutuhkan 30-90-an untuk startup (tergantung pada perangkat keras). Ini karena kami obor. Model untuk inferensi cepat.
Pada Ampere, ADA-Lovelace, dan Hopper Architecture GPU, setelah dikompilasi, Sintesise () API berjalan lebih cepat daripada real-time, dengan faktor real-time (RTF) <1,0.
# You can use `--quantisation_mode int4` or `--quantisation_mode int8` for experimental faster inference. This will degrade the quality of the audio.
# Note: int8 is slower than bf16/fp16 for undebugged reasons. If you want fast, try int4 which is roughly 2x faster than bf16/fp16.
# navigate to <URL>/docs for API definitions
poetry run python serving.py
poetry run python app.pyKami mendukung Finetuning The First Stage LLM (lihat bagian Arsitektur).
Untuk Finetune, kami mengharapkan dataset CSV "|" dari format berikut:
audio_files|captions
./data/audio.wav|./data/caption.txt
Perhatikan bahwa kami tidak melakukan pemeriksaan tumpang tindih dataset apa pun, jadi pastikan bahwa dataset kereta dan Val Anda terputus -putus.
Cobalah menggunakan dataset sampel kami melalui:
poetry run finetune --train ./datasets/sample_dataset.csv --val ./datasets/sample_val_dataset.csvSetelah Anda melatih model Anda, Anda dapat menggunakannya untuk inferensi melalui:
poetry run python -i fam/llm/fast_inference.py --first_stage_path ./my-finetuned_model.ptUntuk mengatur hyperparameter seperti tingkat belajar, apa yang harus dibekukan, dll, Anda dapat mengedit file finetune_params.py.
Kami memiliki integrasi cahaya & opsional dengan W&B yang dapat diaktifkan melalui pengaturan wandb_log = True & dengan menginstal dependensi yang sesuai.
poetry install -E observableKami memprediksi token Encodec dari teks, dan informasi speaker. Ini kemudian disebarkan hingga tingkat bentuk gelombang, dengan pasca pemrosesan diterapkan untuk membersihkan audio.
Model mendukung:
Kami berterima kasih kepada Together.AI atas bantuan 24/7 mereka dalam mengarsipkan cluster kami. Kami berterima kasih kepada tim AWS, GCP & memeluk wajah atas dukungan dengan platform cloud mereka.
Permintaan maaf sebelumnya jika kami melewatkan siapa pun. Beri tahu kami jika kami punya.