ultravox Download - Unduh Kode Sumber ultravox

ultravox

Kode sumber lainnya

v0.4.1

Unduh

LLM multimodal cepat untuk suara real-time

Berita terbaru

2024/11 - Ultravox 0.4.1 tersedia
2024/08 - Ultravox 0.4 tersedia
2024/08 - Ultravox 0.3 tersedia
2024/08 - Pratinjau API Ultravox tersedia, informasi lebih lanjut di sini

Tentang

Ultravox adalah jenis baru LLM multimodal yang dapat memahami teks serta ucapan manusia, tanpa perlu tahap pengenalan pidato audio (ASR) yang terpisah. Membangun penelitian seperti Audiolm, SeamlessM4T, Gazelle, SpeechGPT, dan lainnya, Ultravox dapat memperluas LLM dengan berat terbuka dengan proyektor multimodal yang mengubah audio secara langsung menjadi ruang dimensi tinggi yang digunakan oleh LLM. Kami telah melatih versi di Llama 3, Mistral, dan Gemma. Kopling langsung ini memungkinkan Ultravox untuk merespons lebih cepat daripada sistem yang menggabungkan komponen ASR dan LLM yang terpisah. Di masa depan ini juga akan memungkinkan Ultravox untuk secara alami memahami isyarat paralinguistik waktu dan emosi yang ada di mana -mana dalam ucapan manusia.

Versi Ultravox (v0.4) saat ini, ketika dipanggil dengan konten audio, memiliki waktu-ke-pertama (TTFT) sekitar 150ms, dan tingkat token per detik ~ 60 menggunakan tulang punggung LLAMA 3.1 8B . Meskipun cukup cepat, kami percaya ada ruang yang cukup untuk perbaikan dalam angka -angka ini.

Ultravox saat ini mengambil audio dan memancarkan teks streaming. Saat kami mengembangkan model, kami akan melatihnya untuk dapat memancarkan aliran token bicara yang kemudian dapat dikonversi langsung menjadi audio mentah oleh vokoder unit yang sesuai.

Demo

Lihat Ultravox beraksi di halaman demo kami.

Perselisihan

Bergabunglah dengan kami di server Discord kami di sini.

Pekerjaan

Jika Anda tertarik untuk bekerja di Ultravox penuh waktu, kami merekrut! Lihat halaman pekerjaan kami di sini.

Server inferensi

Anda dapat mencoba Ultravox menggunakan konten audio Anda sendiri (sebagai file WAV) dengan memutar instance Ultravox pada mitra kami, Baseten: https://www.baseten.co/library/ultravox/. Mereka menawarkan kredit gratis untuk memulai.

Jika Anda tertarik untuk menjalankan Ultravox dalam kapasitas real-time, kami menawarkan satu set API yang dikelola juga. Anda dapat mempelajari lebih lanjut tentang mendapatkan akses ke orang -orang di sini.

Model

Anda dapat mengunduh bobot terbaru dari halaman wajah Ultravox Hugging.

Arsitektur

Berkontribusi

Baca terus jika Anda tertarik untuk melatih Ultravox versi Anda sendiri.

Pengaturan Lingkungan (Mac)

Instal alat dasar:

Homebrew adalah manajer paket untuk macOS yang juga sebagian besar berfungsi untuk Linux. Jika Anda menjalankan Debian atau Ubuntu Linux, Anda dapat bertahan dengan APT.
Just alur kerja shell kami. Ini sering berfungsi sebagai antarmuka kita untuk semua alat lainnya.

/bin/bash -c " $( curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh ) "
brew update
brew install just

Buat lingkungan virtual Python dan instal paket yang diperlukan:

just install

Kami menggunakan puisi untuk mengelola lingkungan virtual Python.

Pengaturan Lingkungan Mosaic (Fixie Internal)

Jika Anda ingin menggunakan mosaik untuk pelatihan, Anda perlu mengatur beberapa hal untuk dijalankan di platform mosaik.

Instal & Masuk ke Mosaic CLI

pip install --upgrade mosaicml-cli

mcli init

mcli set api-key < new-value >

Atur tombol API untuk alat yang kami gunakan:

 # Huggging Face token for accessing walled data and models
mcli create secret env HF_TOKEN=hf_ < your_token >

# WandB token for logging experiments
mcli create secret env WANDB_PROJECT=ultravox
mcli create secret env WANDB_API_KEY= < your_wandb_key >

# GCP credentials for accessing data (e.g. BoolQ)
# Get service_account.json file from Justin/Farzad and put it in the root dir, then
mcli create secret gcp

Pelatihan

Saat ini, kami menyimpan LLM dan encoder audio Frozen dan hanya melatih adaptor/proyektor. Pelatihan Ultraox v0.4 membutuhkan 2-3 jam di 8xH100 GPU untuk langkah pelatihan 14K.

Kasus penggunaan untuk pelatihan Ultravox

Mengapa Anda ingin (kembali) melatih Ultravox? Berikut beberapa skenario:

Anda ingin menggunakan tulang punggung encoder LLM atau audio yang berbeda.
A. Dalam hal ini Anda perlu melatih kembali adaptor. Anda dapat menggunakan release_config.yaml , yang berisi konfigurasi kami untuk rilis terbaru kami, dan Anda harus dapat dengan mudah mengubah LLM atau encoder dasar dengan menentukan --text-model <hf-model-id-for-llm> dan/atau --audio-model <hf-model-id-for-encoder> .
Anda ingin meningkatkan pengetahuan model -> tidak perlu melatih Ultravox!
A. Kami menyarankan untuk menggunakan Rag on the Fly (tidak diperlukan pelatihan), atau menyempurnakan tulang punggung LLM sebagai gantinya. Anda mungkin perlu melatih ulang Ultravox jika Anda menyempurnakan LLM.
Anda ingin menggunakan data audio Anda sendiri, misalnya untuk menambahkan dukungan untuk bahasa baru.
A. Langkah pertama, persiapkan dataset Anda: Minimal, sampel harus memiliki audio dan bidang continuation teks.
B. Lihatlah ds_tool.py dan continuation.jinja serta varian suara umum kami yang dibuat menggunakan ds_tool untuk menambahkan bidang continuation .
C. Tambahkan dataset Anda ke campuran dataset di release_config.yaml dan latih.

Tidak ada satu ukuran yang cocok untuk semua. Jika Anda memerlukan bantuan, Anda dapat menemukan kami di server Discord kami di sini.

Cara berlatih

Kami melakukan sebagian besar pelatihan kami di platform MosaiCML dan oleh karena itu sebagian besar perkakas dan dokumen kami terkait mosaik. Namun, Anda dapat melakukan pelatihan yang sama pada GPU Anda sendiri tanpa banyak kesulitan. Di sini kami menganggap Anda memiliki pengaturan lingkungan (jalankan just install ). Anda juga dapat melihat di setup.sh

Untuk memulai pelatihan yang dapat Anda lakukan:

poetry run python -m ultravox.training.train --config_path ultravox/training/configs/release_config.yaml

Untuk pelatihan DDP, pastikan untuk menambahkan torchrun . Kami juga merekomendasikan prefetching bobot terlebih dahulu:

TRAIN_ARGS= " --config_path ultravox/training/configs/release_config.yaml "
poetry run python -m ultravox.training.helpers.prefetch_weights $TRAIN_ARGS
poetry run torchrun --nproc_per_node=8 -m ultravox.training.train $TRAIN_ARGS

Untuk menjalankan debug, Anda dapat menggunakan model yang lebih kecil, kumpulan data, atau ukuran batch. Berikut adalah konfigurasi yang menggunakan Tinyllama sebagai tulang punggung LLM:

poetry run python -m ultravox.training.train --config_path ultravox/training/configs/asr_tinyllama_100s.yaml --batch_size 1 --report_logs_to tensorboard

Kami menggunakan SimpleParsing untuk konfigurasi. Konfigurasi dapat dikomposisi (yaitu Anda dapat menentukan nol atau banyak konfigurasi) dan meta_config.yaml selalu digunakan sebagai default. Lihat configs_base.py untuk menemukan parameter yang Anda ubah, seperti --text-model , --device , --exp-name , dll.

Pelatihan MosaiCML (Fixie Internal)

Sebelum menjalankan pekerjaan pelatihan apa pun, Anda perlu mengatur kunci SSH Anda di platform mosaic: https://docs.mosaicml.com/projects/mcli/en/latest/resources/secretets/ssh.html#page-secrets-ssh

 # # Create a new SSH key and add it to the Mosaic Platform
# ssh-keygen -f ~/.ssh/mclid_id_rsa
# # add the **public** key to Github
# mcli create secret ssh ~/.ssh/mclid_id_rsa

mcli run -f mcloud.yaml --follow

Perintah bermanfaat lainnya:

mcli get clusters

mcli util r7z2
mcli get runs
mcli get runs --cluster r7z2

mcli run -f mcloud.yaml --follow

Untuk menjalankan interaktif, Anda dapat menggunakan:

just mcloud --image mosaicml/composer:latest --max-duration 1

Penting: Pastikan untuk memantau pekerjaan Anda dan menghentikan mesin ketika Anda selesai dengan pekerjaan apa pun, secara khusus interaktif!

Menjalankan evaluasi

Gunakan infer_tool.py --json > file untuk membuat output JSONL dari kombo model/dataset yang diberikan, di mana setiap baris berisi dua nilai: tanya jawab dan jawaban .
Gunakan eval_tool.py -f file untuk mengevaluasi file JSONL, yang akan menghasilkan skor rata -rata untuk model pada dataset.

Misc

Justfile adalah sumber yang bagus untuk menemukan perintah populer. Inilah beberapa:

just update    # update dependencies
just format    # run formatting (black, isort, autoflake)
just test      # run tests
just python    # activate venv and run python

Memperluas

Informasi Tambahan

Versi v0.4.1
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-02-24
ukuran 697.38KB
Berasal dari Github

Aplikasi Terkait

Google Dorks

2025-03-10
shepherd

2025-06-04
hidusbf

2025-02-14
mongo express

2025-06-04
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Kode sumber lainnya

1.0.0
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Kode sumber lainnya

1.0.0

Informasi Terkait Semua