ดาวน์โหลด metavoice src - metavoice src แหล่งที่มาดาวน์โหลด

metavoice src

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

metavoice-1b

Metavoice-1b เป็นรุ่นฐานพารามิเตอร์ 1.2b ที่ผ่านการฝึกอบรมเกี่ยวกับการพูด 100k ชั่วโมงสำหรับ TTS (ข้อความเป็นคำพูด) มันถูกสร้างขึ้นด้วยลำดับความสำคัญต่อไปนี้:

จังหวะการพูดทางอารมณ์และน้ำเสียง เป็นภาษาอังกฤษ
การโคลนนิ่งแบบไม่มีการยิงสำหรับเสียงอเมริกันและอังกฤษ ด้วยเสียงอ้างอิง 30s
รองรับ การโคลนเสียง (ข้ามภาษา) ด้วย finetuning
- เราประสบความสำเร็จด้วยข้อมูลการฝึกอบรมเพียง 1 นาทีสำหรับผู้พูดชาวอินเดีย
การสังเคราะห์ ข้อความความยาวโดยพลการ

เรากำลังปล่อย Metavoice-1B ภายใต้ใบอนุญาต Apache 2.0 สามารถใช้งานได้โดยไม่มีข้อ จำกัด

Quickstart - TL; DR

เว็บ UI

docker-compose up -d ui && docker-compose ps && docker-compose logs -f

เซิร์ฟเวอร์

 # navigate to <URL>/docs for API definitions
docker-compose up -d server && docker-compose ps && docker-compose logs -f

การติดตั้ง

สิ่งที่ต้องทำล่วงหน้า:

gpu vram> = 12gb
Python> = 3.10, <3.12
PIPX (คำแนะนำการติดตั้ง)

การตั้งค่าสภาพแวดล้อม

 # install ffmpeg
wget https://johnvansickle.com/ffmpeg/builds/ffmpeg-git-amd64-static.tar.xz
wget https://johnvansickle.com/ffmpeg/builds/ffmpeg-git-amd64-static.tar.xz.md5
md5sum -c ffmpeg-git-amd64-static.tar.xz.md5
tar xvf ffmpeg-git-amd64-static.tar.xz
sudo mv ffmpeg-git- * -static/ffprobe ffmpeg-git- * -static/ffmpeg /usr/local/bin/
rm -rf ffmpeg-git- *

# install rust if not installed (ensure you've restarted your terminal after installation)
curl --proto ' =https ' --tlsv1.2 -sSf https://sh.rustup.rs | sh

การติดตั้งการพึ่งพาโครงการ

ใช้บทกวี
ใช้ pip/conda

ใช้บทกวี (แนะนำ)

 # install poetry if not installed (ensure you've restarted your terminal after installation)
pipx install poetry

# disable any conda envs that might interfere with poetry's venv
conda deactivate

# if running from Linux, keyring backend can hang on `poetry install`. This prevents that.
export PYTHON_KEYRING_BACKEND=keyring.backends.fail.Keyring

# pip's dependency resolver will complain, this is temporary expected behaviour
# full inference & finetuning functionality will still be available
poetry install && poetry run pip install torch==2.2.1 torchaudio==2.2.1

ใช้ pip/conda

หมายเหตุ 1: เมื่อมีปัญหาเราจะขอให้คุณลองบทกวีก่อน หมายเหตุ 2: คำสั่งทั้งหมดในบทกวีนี้ใช้ poetry โดยค่าเริ่มต้นดังนั้นคุณสามารถลบ poetry run ใด ๆ ได้

pip install -r requirements.txt
pip install torch==2.2.1 torchaudio==2.2.1
pip install -e .

การใช้งาน

ดาวน์โหลดและใช้งานได้ทุกที่ (รวมถึงท้องถิ่น) ด้วยการใช้งานอ้างอิงของเรา

 # You can use `--quantisation_mode int4` or `--quantisation_mode int8` for experimental faster inference.  This will degrade the quality of the audio.
# Note: int8 is slower than bf16/fp16 for undebugged reasons. If you want fast, try int4 which is roughly 2x faster than bf16/fp16.
poetry run python -i fam/llm/fast_inference.py

# Run e.g. of API usage within the interactive python session
tts.synthesise(text= " This is a demo of text to speech by MetaVoice-1B, an open-source foundational audio model. " , spk_ref_path= " assets/bria.mp3 " )

หมายเหตุ: สคริปต์ใช้เวลา 30-90s ในการเริ่มต้น (ขึ้นอยู่กับฮาร์ดแวร์) นี่เป็นเพราะเราคบเพลิงคอมไพล์โมเดลสำหรับการอนุมานอย่างรวดเร็ว

บน AMPERE, ADA-LOVELACE และ HOPPER Architecture GPU, เมื่อรวบรวม, Synthesise () API ทำงานได้เร็วกว่าแบบเรียลไทม์ด้วยปัจจัยเรียลไทม์ (RTF) <1.0

ปรับใช้บนคลาวด์ใด ๆ (AWS/GCP/Azure) โดยใช้เซิร์ฟเวอร์การอนุมานหรือเว็บ UI ของเรา

 # You can use `--quantisation_mode int4` or `--quantisation_mode int8` for experimental faster inference. This will degrade the quality of the audio.
# Note: int8 is slower than bf16/fp16 for undebugged reasons. If you want fast, try int4 which is roughly 2x faster than bf16/fp16.

# navigate to <URL>/docs for API definitions
poetry run python serving.py

poetry run python app.py

ใช้ผ่านการกอดใบหน้า
การสาธิต Google Colab

การทำให้หมดแรง

เราสนับสนุน Finetuning LLM ระยะแรก (ดูส่วนสถาปัตยกรรม)

เพื่อที่จะ finetune เราคาดหวังชุดข้อมูล CSV ที่กำหนดไว้ในรูปแบบต่อไปนี้:

 audio_files|captions
./data/audio.wav|./data/caption.txt

โปรดทราบว่าเราไม่ได้ทำการตรวจสอบชุดข้อมูลใด ๆ ดังนั้นตรวจสอบให้แน่ใจว่าชุดข้อมูลรถไฟและ VAL ของคุณแยกออกจากกัน

ลองใช้โดยใช้ชุดข้อมูลตัวอย่างของเราผ่าน:

poetry run finetune --train ./datasets/sample_dataset.csv --val ./datasets/sample_val_dataset.csv

เมื่อคุณฝึกอบรมโมเดลแล้วคุณสามารถใช้เพื่ออนุมานผ่าน:

poetry run python -i fam/llm/fast_inference.py --first_stage_path ./my-finetuned_model.pt

การกำหนดค่า

ในการตั้งค่า hyperparameters เช่นอัตราการเรียนรู้สิ่งที่จะแช่แข็ง ฯลฯ คุณสามารถแก้ไขไฟล์ finetune_params.py ได้

เรามีการรวมที่เบาและเสริมด้วย W&B ที่สามารถเปิดใช้งานได้ผ่านการตั้งค่า wandb_log = True & โดยการติดตั้งการพึ่งพาที่เหมาะสม

poetry install -E observable

ที่กำลังจะมาถึง

การอนุมานเร็วขึ้น⚡
รหัสปรับแต่ง?
การสังเคราะห์ข้อความความยาวโดยพลการ

สถาปัตยกรรม

เราคาดการณ์โทเค็น ENCODEC จากข้อความและข้อมูลลำโพง สิ่งนี้จะกระจายไปถึงระดับคลื่นด้วยการโพสต์การประมวลผลเพื่อทำความสะอาดเสียง

เราใช้ GPT เชิงสาเหตุเพื่อทำนายสองชั้นแรกของโทเค็น Encodec ข้อความและเสียงเป็นส่วนหนึ่งของบริบท LLM ข้อมูลลำโพงถูกส่งผ่านการปรับอากาศที่เลเยอร์ฝังโทเค็น การปรับสภาพลำโพงนี้ได้มาจากเครือข่ายการตรวจสอบลำโพงที่ผ่านการฝึกอบรมแยกต่างหาก
- ลำดับชั้นทั้งสองถูกทำนายไว้ในลักษณะ "interleaved flattened" เราทำนายโทเค็นแรกของลำดับชั้นแรกจากนั้นโทเค็นแรกของลำดับชั้นที่สองจากนั้นโทเค็นที่สองของลำดับชั้นแรกและอื่น ๆ
- เราใช้การสุ่มตัวอย่างแบบไม่มีเงื่อนไขเพื่อเพิ่มความสามารถในการโคลนของโมเดล
- ข้อความนี้ถูกนำไปใช้โดยใช้ BPE tokeniser ที่ได้รับการฝึกฝนด้วย 512 โทเค็น
- โปรดทราบว่าเราข้ามการทำนายโทเค็นความหมายตามที่ทำในงานอื่น ๆ เนื่องจากเราพบว่าสิ่งนี้ไม่จำเป็นอย่างเคร่งครัด
เราใช้หม้อแปลง (รูปแบบเข้ารหัส) ที่ไม่ใช่ความไม่พอใจเพื่อทำนายส่วนที่เหลือของลำดับชั้น 6 จากสองลำดับชั้นแรก นี่เป็นรุ่นเล็กสุด ๆ (พารามิเตอร์ ~ 10mn) และมีการวางนัยทั่วไปเป็นศูนย์การยิงอย่างกว้างขวางสำหรับลำโพงส่วนใหญ่ที่เราได้ลอง เนื่องจากไม่ใช่เรื่องไร้สาระเราจึงสามารถทำนายช่วงเวลาทั้งหมดในแบบคู่ขนานได้
เราใช้การแพร่กระจายแบบหลายวงเพื่อสร้างรูปคลื่นจากโทเค็น Encodec เราสังเกตเห็นว่าคำพูดนั้นชัดเจนกว่าการใช้ตัวถอดรหัส RVQ ดั้งเดิมหรือ Vocos อย่างไรก็ตามการแพร่กระจายที่ระดับคลื่นทำให้เกิดสิ่งประดิษฐ์พื้นหลังบางอย่างซึ่งค่อนข้างไม่เป็นที่พอใจต่อหู เราทำความสะอาดสิ่งนี้ในขั้นตอนต่อไป
เราใช้ DeepFilternet เพื่อล้างสิ่งประดิษฐ์ที่แนะนำโดยการแพร่กระจายแบบหลายวง

การเพิ่มประสิทธิภาพ

รุ่นรองรับ:

KV-caching ผ่านการถอดรหัสแฟลช
การแบตช์ (รวมถึงข้อความที่มีความยาวต่างกัน)

มีส่วนช่วย

ดูปัญหาที่ใช้งานอยู่ทั้งหมด!

กิตติกรรมประกาศ

เราขอขอบคุณร่วมกันสำหรับความช่วยเหลือ 24/7 ของพวกเขาในการจัดกลุ่มของเรา เราขอขอบคุณทีมงานของ AWS, GCP & Hugging Face สำหรับการสนับสนุนกับแพลตฟอร์มคลาวด์ของพวกเขา

Défossezและ อัล สำหรับ encodec
RS Roman et. อัล สำหรับการแพร่กระจายแบบ multiband
@liusongxiang สำหรับการใช้งานการเข้ารหัสลำโพง
@karpathy สำหรับ nanogpt ซึ่งการใช้การอนุมานของเราขึ้นอยู่กับ
@rikorose สำหรับ DeepFilternet

ขออภัยล่วงหน้าหากเราพลาดใครออกไป โปรดแจ้งให้เราทราบหากเรามี

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-02-24
ขนาด 1.16MB
มาจาก Github

แอปที่เกี่ยวข้อง

src

2024-11-09
GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

ซอร์สโค้ดอื่น ๆ

1.0.0
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

ซอร์สโค้ดอื่น ๆ

1.0.0

ข้อมูลที่เกี่ยวข้อง ทั้งหมด