metavoice src 다운로드 -Metavoice metavoice src 소스 코드 다운로드

metavoice src

기타 소스코드

1.0.0

다운로드

metavoice-1b

Metavoice-1B는 TTS (Text-To-Steece)에 대해 100k 시간의 음성으로 훈련 된 1.2B 매개 변수 기본 모델입니다. 다음과 같은 우선 순위로 구축되었습니다.

감정적 인 연설 리듬과 영어의 톤 .
30S 참조 오디오와 함께 American & British Voices의 제로 샷 클로닝 .
미세 조정으로 (고양이) 음성 복제를 지원합니다.
- 우리는 인도 스피커에 대한 1 분 만에 성공했습니다.
임의의 길이 텍스트 의 합성

우리는 Apache 2.0 라이센스에 따라 Metavoice-1B를 공개하고 있습니다. 제한없이 사용할 수 있습니다 .

QuickStart -TL; DR

웹 UI

docker-compose up -d ui && docker-compose ps && docker-compose logs -f

섬기는 사람

 # navigate to <URL>/docs for API definitions
docker-compose up -d server && docker-compose ps && docker-compose logs -f

설치

사전 반품 :

GPU VRAM> = 12GB
Python> = 3.10, <3.12
PIPX (설치 지침)

환경 설정

 # install ffmpeg
wget https://johnvansickle.com/ffmpeg/builds/ffmpeg-git-amd64-static.tar.xz
wget https://johnvansickle.com/ffmpeg/builds/ffmpeg-git-amd64-static.tar.xz.md5
md5sum -c ffmpeg-git-amd64-static.tar.xz.md5
tar xvf ffmpeg-git-amd64-static.tar.xz
sudo mv ffmpeg-git- * -static/ffprobe ffmpeg-git- * -static/ffmpeg /usr/local/bin/
rm -rf ffmpeg-git- *

# install rust if not installed (ensure you've restarted your terminal after installation)
curl --proto ' =https ' --tlsv1.2 -sSf https://sh.rustup.rs | sh

프로젝트 종속성 설치

시를 사용합니다
PIP/CONDA 사용

시 사용 (추천)

 # install poetry if not installed (ensure you've restarted your terminal after installation)
pipx install poetry

# disable any conda envs that might interfere with poetry's venv
conda deactivate

# if running from Linux, keyring backend can hang on `poetry install`. This prevents that.
export PYTHON_KEYRING_BACKEND=keyring.backends.fail.Keyring

# pip's dependency resolver will complain, this is temporary expected behaviour
# full inference & finetuning functionality will still be available
poetry install && poetry run pip install torch==2.2.1 torchaudio==2.2.1

PIP/CONDA 사용

참고 1 : 문제를 제기 할 때시를 먼저 시도하도록 요청합니다. 참고 2 :이 readme의 모든 명령은 기본적으로 poetry 사용하므로 poetry run 제거 할 수 있습니다.

pip install -r requirements.txt
pip install torch==2.2.1 torchaudio==2.2.1
pip install -e .

용법

참조 구현과 함께 어디서나 (로컬 포함) 어디서나 사용하십시오.

 # You can use `--quantisation_mode int4` or `--quantisation_mode int8` for experimental faster inference.  This will degrade the quality of the audio.
# Note: int8 is slower than bf16/fp16 for undebugged reasons. If you want fast, try int4 which is roughly 2x faster than bf16/fp16.
poetry run python -i fam/llm/fast_inference.py

# Run e.g. of API usage within the interactive python session
tts.synthesise(text= " This is a demo of text to speech by MetaVoice-1B, an open-source foundational audio model. " , spk_ref_path= " assets/bria.mp3 " )

참고 : 스크립트는 하드웨어에 따라 30-90 년대가 시작됩니다. 이것은 우리가 빠른 추론을위한 모델을 토치하기 때문입니다.

Ampere, Ada-Lovelace 및 Hopper Architecture GPU에서는 일단 컴파일되면 Synthesise () API는 실시간 요소 (RTF) <1.0으로 실시간보다 빠르게 실행됩니다.

추론 서버 또는 웹 UI를 사용하여 모든 클라우드 (AWS/GCP/AZURE)에 배포하십시오.

 # You can use `--quantisation_mode int4` or `--quantisation_mode int8` for experimental faster inference. This will degrade the quality of the audio.
# Note: int8 is slower than bf16/fp16 for undebugged reasons. If you want fast, try int4 which is roughly 2x faster than bf16/fp16.

# navigate to <URL>/docs for API definitions
poetry run python serving.py

poetry run python app.py

포옹을 통해 사용하십시오
Google Colab 데모

FINETUNING

우리는 첫 번째 단계 LLM을 지원합니다 (아키텍처 섹션 참조).

양방향을 위해 다음 형식의 "|"-텔리밍 CSV 데이터 세트를 기대합니다.

 audio_files|captions
./data/audio.wav|./data/caption.txt

데이터 세트 오버랩 검사를 수행하지 않으므로 열차 및 VAL 데이터 세트가 분리되어 있는지 확인하십시오.

다음을 통해 샘플 데이터 세트를 사용하여 시도하십시오.

poetry run finetune --train ./datasets/sample_dataset.csv --val ./datasets/sample_val_dataset.csv

모델을 교육 한 후에는 다음을 통해 추론에 사용할 수 있습니다.

poetry run python -i fam/llm/fast_inference.py --first_stage_path ./my-finetuned_model.pt

구성

학습 속도, 동결 된 내용 등과 같은 하이퍼 파라미터를 설정하려면 Finetune_params.py 파일을 편집 할 수 있습니다.

wandb_log = True 및 적절한 종속성을 설치하여 설정하여 활성화 할 수있는 W & B와의 Light & Optional Integration이 있습니다.

poetry install -E observable

다가오는

더 빠른 추론 ⚡
미세 조정 코드?
임의의 길이 텍스트의 합성

건축학

우리는 텍스트와 스피커 정보에서 encodec 토큰을 예측합니다. 그런 다음 오디오를 정리하기 위해 사후 처리가 적용되면서 파형 레벨까지 확산됩니다.

우리는 인과 GPT를 사용하여 Encodec 토큰의 첫 두 계층을 예측합니다. 텍스트와 오디오는 LLM 컨텍스트의 일부입니다. 스피커 정보는 토큰 임베딩 층에서 컨디셔닝을 통해 전달됩니다. 이 스피커 컨디셔닝은 별도로 훈련 된 스피커 검증 네트워크에서 얻습니다.
- 두 계층은 "평평한 인터리브"방식으로 예측되며, 첫 번째 계층 구조의 첫 번째 토큰, 두 번째 계층의 첫 번째 토큰, 첫 번째 계층의 두 번째 토큰 등을 예측합니다.
- 우리는 조건없는 샘플링을 사용하여 모델의 클로닝 기능을 향상시킵니다.
- 이 텍스트는 512 개의 토큰이있는 맞춤형 훈련 된 BPE 토큰자를 사용하여 토큰 화되었습니다.
- 우리는 다른 작품에서와 같이 시맨틱 토큰을 예측하는 것을 건너 뛰었습니다.
우리는 비 제고 (인코더 스타일) 변압기를 사용하여 처음 두 계층의 나머지 계층을 예측합니다. 이것은 초소형 모델 (~ 10MN 매개 변수)이며 우리가 시도한 대부분의 스피커에 광범위한 제로 샷 일반화를 가지고 있습니다. 비정규이기 때문에 모든 타임 스텝을 병렬로 예측할 수 있습니다.
우리는 다중 대역 확산을 사용하여 encodec 토큰으로부터 파형을 생성합니다. 우리는 연설이 원래 RVQ 디코더 또는 Vocos를 사용하는 것보다 명확하다는 것을 알았습니다. 그러나 파형 수준에서의 확산은 귀에 상당히 불쾌한 배경 아티팩트를 남깁니다. 우리는 다음 단계에서 이것을 청소합니다.
우리는 DeepFilternet을 사용하여 다중 대역 확산으로 도입 된 아티팩트를 제거합니다.

최적화

모델은 다음을 지원합니다.

플래시 디코딩을 통한 KV 캐싱
배치 (길이가 다른 텍스트 포함)

기여하다

모든 활성 문제를보십시오!

감사의 말

우리는 클러스터를 마샬링하는 24/7의 도움에 대해 함께 감사합니다. 클라우드 플랫폼을 지원해 주신 AWS, GCP 및 Hugging Face 팀에 감사드립니다.

Défossez et. 알. Encodec의 경우.
RS Roman et. 알. 멀티 만 확산의 경우.
스피커 인코더 구현 용 @liusongxiang.
추론 구현이 기반으로 한 Nanogpt에 대한 @karpathy.
DeepFilternet의 @Rikorose.

우리가 누군가를 놓친 경우 사전 사과합니다. 우리가 있다면 알려주십시오.

확장하다

추가 정보

버전 1.0.0
유형 기타 소스코드
업데이트 시간 2025-02-24
크기 1.16MB
출처 Github

metavoice src

metavoice-1b

QuickStart -TL; DR

설치

프로젝트 종속성 설치

시 사용 (추천)

PIP/CONDA 사용

용법

FINETUNING

구성

다가오는

건축학

최적화

기여하다

감사의 말

src

GitHub sgrebnov/cordova plugin background download

Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

hidusbf

Google Dorks

shepherd

hidusbf