Metavoice-1b เป็นรุ่นฐานพารามิเตอร์ 1.2b ที่ผ่านการฝึกอบรมเกี่ยวกับการพูด 100k ชั่วโมงสำหรับ TTS (ข้อความเป็นคำพูด) มันถูกสร้างขึ้นด้วยลำดับความสำคัญต่อไปนี้:
เรากำลังปล่อย Metavoice-1B ภายใต้ใบอนุญาต Apache 2.0 สามารถใช้งานได้โดยไม่มีข้อ จำกัด
เว็บ UI
docker-compose up -d ui && docker-compose ps && docker-compose logs -fเซิร์ฟเวอร์
# navigate to <URL>/docs for API definitions
docker-compose up -d server && docker-compose ps && docker-compose logs -fสิ่งที่ต้องทำล่วงหน้า:
การตั้งค่าสภาพแวดล้อม
# install ffmpeg
wget https://johnvansickle.com/ffmpeg/builds/ffmpeg-git-amd64-static.tar.xz
wget https://johnvansickle.com/ffmpeg/builds/ffmpeg-git-amd64-static.tar.xz.md5
md5sum -c ffmpeg-git-amd64-static.tar.xz.md5
tar xvf ffmpeg-git-amd64-static.tar.xz
sudo mv ffmpeg-git- * -static/ffprobe ffmpeg-git- * -static/ffmpeg /usr/local/bin/
rm -rf ffmpeg-git- *
# install rust if not installed (ensure you've restarted your terminal after installation)
curl --proto ' =https ' --tlsv1.2 -sSf https://sh.rustup.rs | sh # install poetry if not installed (ensure you've restarted your terminal after installation)
pipx install poetry
# disable any conda envs that might interfere with poetry's venv
conda deactivate
# if running from Linux, keyring backend can hang on `poetry install`. This prevents that.
export PYTHON_KEYRING_BACKEND=keyring.backends.fail.Keyring
# pip's dependency resolver will complain, this is temporary expected behaviour
# full inference & finetuning functionality will still be available
poetry install && poetry run pip install torch==2.2.1 torchaudio==2.2.1 หมายเหตุ 1: เมื่อมีปัญหาเราจะขอให้คุณลองบทกวีก่อน หมายเหตุ 2: คำสั่งทั้งหมดในบทกวีนี้ใช้ poetry โดยค่าเริ่มต้นดังนั้นคุณสามารถลบ poetry run ใด ๆ ได้
pip install -r requirements.txt
pip install torch==2.2.1 torchaudio==2.2.1
pip install -e . # You can use `--quantisation_mode int4` or `--quantisation_mode int8` for experimental faster inference. This will degrade the quality of the audio.
# Note: int8 is slower than bf16/fp16 for undebugged reasons. If you want fast, try int4 which is roughly 2x faster than bf16/fp16.
poetry run python -i fam/llm/fast_inference.py
# Run e.g. of API usage within the interactive python session
tts.synthesise(text= " This is a demo of text to speech by MetaVoice-1B, an open-source foundational audio model. " , spk_ref_path= " assets/bria.mp3 " )หมายเหตุ: สคริปต์ใช้เวลา 30-90s ในการเริ่มต้น (ขึ้นอยู่กับฮาร์ดแวร์) นี่เป็นเพราะเราคบเพลิงคอมไพล์โมเดลสำหรับการอนุมานอย่างรวดเร็ว
บน AMPERE, ADA-LOVELACE และ HOPPER Architecture GPU, เมื่อรวบรวม, Synthesise () API ทำงานได้เร็วกว่าแบบเรียลไทม์ด้วยปัจจัยเรียลไทม์ (RTF) <1.0
# You can use `--quantisation_mode int4` or `--quantisation_mode int8` for experimental faster inference. This will degrade the quality of the audio.
# Note: int8 is slower than bf16/fp16 for undebugged reasons. If you want fast, try int4 which is roughly 2x faster than bf16/fp16.
# navigate to <URL>/docs for API definitions
poetry run python serving.py
poetry run python app.pyเราสนับสนุน Finetuning LLM ระยะแรก (ดูส่วนสถาปัตยกรรม)
เพื่อที่จะ finetune เราคาดหวังชุดข้อมูล CSV ที่กำหนดไว้ในรูปแบบต่อไปนี้:
audio_files|captions
./data/audio.wav|./data/caption.txt
โปรดทราบว่าเราไม่ได้ทำการตรวจสอบชุดข้อมูลใด ๆ ดังนั้นตรวจสอบให้แน่ใจว่าชุดข้อมูลรถไฟและ VAL ของคุณแยกออกจากกัน
ลองใช้โดยใช้ชุดข้อมูลตัวอย่างของเราผ่าน:
poetry run finetune --train ./datasets/sample_dataset.csv --val ./datasets/sample_val_dataset.csvเมื่อคุณฝึกอบรมโมเดลแล้วคุณสามารถใช้เพื่ออนุมานผ่าน:
poetry run python -i fam/llm/fast_inference.py --first_stage_path ./my-finetuned_model.ptในการตั้งค่า hyperparameters เช่นอัตราการเรียนรู้สิ่งที่จะแช่แข็ง ฯลฯ คุณสามารถแก้ไขไฟล์ finetune_params.py ได้
เรามีการรวมที่เบาและเสริมด้วย W&B ที่สามารถเปิดใช้งานได้ผ่านการตั้งค่า wandb_log = True & โดยการติดตั้งการพึ่งพาที่เหมาะสม
poetry install -E observableเราคาดการณ์โทเค็น ENCODEC จากข้อความและข้อมูลลำโพง สิ่งนี้จะกระจายไปถึงระดับคลื่นด้วยการโพสต์การประมวลผลเพื่อทำความสะอาดเสียง
รุ่นรองรับ:
เราขอขอบคุณร่วมกันสำหรับความช่วยเหลือ 24/7 ของพวกเขาในการจัดกลุ่มของเรา เราขอขอบคุณทีมงานของ AWS, GCP & Hugging Face สำหรับการสนับสนุนกับแพลตฟอร์มคลาวด์ของพวกเขา
ขออภัยล่วงหน้าหากเราพลาดใครออกไป โปรดแจ้งให้เราทราบหากเรามี