metavoice srcダウンロード-MetaVoice metavoice srcソースコードのダウンロード

metavoice src

その他のソースコード

1.0.0

ダウンロード

metavoice-1B

MetAvoice-1Bは、TTSの100K時間の音声（テキストツーチー）でトレーニングされた1.2Bパラメーターベースモデルです。次の優先事項で構築されています。

英語の感情的な音声リズムとトーン。
30代のリファレンスオーディオを備えた、アメリカとイギリスの声のためのゼロショットクローニング。
微調整された（言語間）音声クローニングのサポート。
- 私たちは、インドの講演者向けにわずか1分間のトレーニングデータで成功しました。
任意の長さのテキストの合成

Apache 2.0ライセンスの下でMetAvoice-1Bをリリースしていますが、制限なしに使用できます。

QuickStart -TL; DR

Web UI

docker-compose up -d ui && docker-compose ps && docker-compose logs -f

サーバ

 # navigate to <URL>/docs for API definitions
docker-compose up -d server && docker-compose ps && docker-compose logs -f

インストール

前提条件：

GPU VRAM> = 12GB
python> = 3.10、<3.12
PIPX（インストール手順）

環境のセットアップ

 # install ffmpeg
wget https://johnvansickle.com/ffmpeg/builds/ffmpeg-git-amd64-static.tar.xz
wget https://johnvansickle.com/ffmpeg/builds/ffmpeg-git-amd64-static.tar.xz.md5
md5sum -c ffmpeg-git-amd64-static.tar.xz.md5
tar xvf ffmpeg-git-amd64-static.tar.xz
sudo mv ffmpeg-git- * -static/ffprobe ffmpeg-git- * -static/ffmpeg /usr/local/bin/
rm -rf ffmpeg-git- *

# install rust if not installed (ensure you've restarted your terminal after installation)
curl --proto ' =https ' --tlsv1.2 -sSf https://sh.rustup.rs | sh

プロジェクト依存関係のインストール

詩を使う
PIP/CONDAを使用します

詩の使用（推奨）

 # install poetry if not installed (ensure you've restarted your terminal after installation)
pipx install poetry

# disable any conda envs that might interfere with poetry's venv
conda deactivate

# if running from Linux, keyring backend can hang on `poetry install`. This prevents that.
export PYTHON_KEYRING_BACKEND=keyring.backends.fail.Keyring

# pip's dependency resolver will complain, this is temporary expected behaviour
# full inference & finetuning functionality will still be available
poetry install && poetry run pip install torch==2.2.1 torchaudio==2.2.1

PIP/CONDAを使用します

注1：問題を提起するときは、最初に詩を試してみてください。注2：このreadmeのすべてのコマンドはデフォルトでpoetryを使用するため、 poetry runを削除することができます。

pip install -r requirements.txt
pip install torch==2.2.1 torchaudio==2.2.1
pip install -e .

使用法

それをダウンロードして、参照実装で（ローカルを含む）どこにでも使用してください

 # You can use `--quantisation_mode int4` or `--quantisation_mode int8` for experimental faster inference.  This will degrade the quality of the audio.
# Note: int8 is slower than bf16/fp16 for undebugged reasons. If you want fast, try int4 which is roughly 2x faster than bf16/fp16.
poetry run python -i fam/llm/fast_inference.py

# Run e.g. of API usage within the interactive python session
tts.synthesise(text= " This is a demo of text to speech by MetaVoice-1B, an open-source foundational audio model. " , spk_ref_path= " assets/bria.mp3 " )

注：スクリプトは30〜90秒かかり、スタートアップにかかります（ハードウェアに応じて）。これは、速い推論のためにモデルを締めくくるためです。

Ampere、Ada-Lovelace、およびHopper Architecture GPUで、コンパイルされると、Synthesise（）APIはリアルタイムよりも速く実行され、リアルタイム係数（RTF）<1.0。

推論サーバーまたはWeb UIを使用して、任意のクラウド（AWS/GCP/Azure）に展開します

 # You can use `--quantisation_mode int4` or `--quantisation_mode int8` for experimental faster inference. This will degrade the quality of the audio.
# Note: int8 is slower than bf16/fp16 for undebugged reasons. If you want fast, try int4 which is roughly 2x faster than bf16/fp16.

# navigate to <URL>/docs for API definitions
poetry run python serving.py

poetry run python app.py

ハグを介してそれを使用します
Google Colabデモ

微調整

最初の段階のLLMの微調整をサポートします（アーキテクチャセクションを参照）。

Finetuneを使用するために、次の形式の「|」と照らされたCSVデータセットが期待されます。

 audio_files|captions
./data/audio.wav|./data/caption.txt

データセットオーバーラップチェックを実行しないことに注意してください。そのため、列車とVALのデータセットがばらばらであることを確認してください。

以下を介してサンプルデータセットを使用して試してみてください。

poetry run finetune --train ./datasets/sample_dataset.csv --val ./datasets/sample_val_dataset.csv

モデルをトレーニングしたら、次のことを推論に使用できます。

poetry run python -i fam/llm/fast_inference.py --first_stage_path ./my-finetuned_model.pt

構成

学習率、フリーズするものなど、ハイパーパラメーターを設定するには、Finetune_Params.pyファイルを編集できます。

wandb_log = Trueを設定し、適切な依存関係をインストールすることで有効にできる、W＆Bとのライトおよびオプションの統合があります。

poetry install -E observable

今後

より速い推論⚡
微調整コード？
任意の長さのテキストの合成

建築

テキストとスピーカー情報からのエンコデックトークンを予測します。これは、波形レベルまで拡散され、ポストプロセスが適用され、オーディオのクリーンアップが適用されます。

因果GPTを使用して、Encodecトークンの最初の2つの階層を予測します。テキストとオーディオは、LLMコンテキストの一部です。スピーカー情報は、トークン埋め込み層でのコンディショニングによって渡されます。このスピーカーコンディショニングは、個別にトレーニングされたスピーカー検証ネットワークから取得されます。
- 2つの階層は「平坦化されたインターリーブ」方法で予測され、最初の階層の最初のトークン、次に2番目の階層の最初のトークン、次に最初の階層の2番目のトークンなどを予測します。
- 条件なしサンプリングを使用して、モデルのクローニング機能を高めます。
- このテキストは、512トークンを備えたカスタムトレーニングBPEトーナイザーを使用してトークン化されています。
- 他の作品で行われたように、セマンティックトークンの予測をスキップしたことに注意してください。これは厳密に必要ではないことがわかったためです。
最初の2つの階層からの6つの階層の残りを予測するために、非因果性（エンコーダースタイル）トランスを使用します。これは非常に小さなモデル（〜10mnパラメーター）であり、試したほとんどのスピーカーに大規模なゼロショットの一般化があります。それは非因果関係であるため、すべてのタイムステップを並行して予測することもできます。
マルチバンド拡散を使用して、Encodecトークンから波形を生成します。スピーチは、元のRVQデコーダーまたはVoCOSを使用するよりも明確であることに気付きました。ただし、波形レベルでの拡散により、耳に非常に不快な背景アーチファクトが残ります。次のステップでこれをクリーンアップします。
DeepFilternetを使用して、マルチバンド拡散によって導入されたアーティファクトをクリアします。

最適化

モデルはサポートしています：

フラッシュデコードによるKVキャッシュ
バッチング（異なる長さのテキストを含む）

貢献する

すべてのアクティブな問題をご覧ください！

謝辞

私たちは一緒に感謝しています。彼らのクラスターのマーシャルに24時間年中無休で助けをしてくれました。 AWS、GCP、抱き合ったチームのチームに、クラウドプラットフォームでサポートしてくれたことに感謝します。

Défossezet。アル。 encodec用。
Rs Roman et。アル。マルチバンド拡散用。
スピーカーエンコーダー実装の@liusongxiang。
@karpathyの推論の実装が基づいているnanogptの。
deepfilternetの@rikorose。

誰かを逃した場合、事前に謝罪します。持っている場合はお知らせください。

拡大する

追加情報

バージョン 1.0.0
タイプその他のソースコード
更新時間 2025-02-24
サイズ 1.16MB
から Github

metavoice src

metavoice-1B

QuickStart -TL; DR

インストール

プロジェクト依存関係のインストール

詩の使用（推奨）

PIP/CONDAを使用します

使用法

微調整

構成

今後

建築

最適化

貢献する

謝辞

src

GitHub sgrebnov/cordova plugin background download

Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

hidusbf

Google Dorks

shepherd

hidusbf