Unduh speech to speech - Unduh Kode Sumber speech to speech

speech to speech

Kode sumber lainnya

1.0.0

Unduh

Pidato ke Pidato: Upaya untuk GPT4-O Sumber Terbuka dan Modular

Indeks cepat

Mendekati
- Struktur
- Modularitas
Pengaturan
Penggunaan
- Pendekatan server Docker
- Pendekatan server/klien
- Pendekatan lokal
Penggunaan baris perintah
- Parameter model
- Parameter pembuatan
- Parameter penting

Mendekati

Struktur

Repositori ini mengimplementasikan pipa cascaded ucapan-ke-pidato yang terdiri dari bagian-bagian berikut:

Deteksi Aktivitas Suara (VAD)
Pidato ke Teks (STT)
Model Bahasa (LM)
Teks ke Pidato (TTS)

Modularitas

Pipa ini memberikan pendekatan yang sepenuhnya terbuka dan modular, dengan fokus pada model leveraging yang tersedia melalui pustaka Transformers di hub wajah pelukan. Kode ini dirancang untuk modifikasi yang mudah, dan kami sudah mendukung implementasi perpustakaan khusus dan eksternal perangkat:

Vad

Silero VAD V5

Stt

Pos Pemeriksaan Model Whisper pada HUB HUB HUDGING melalui Transformers?, Termasuk Whisper-Large-V3 dan Distil-Large-V3
Lightning Whisper MLX
Paraformer - Funasr

Llm

Adakah model mengikuti instruksi di hub wajah pelukan melalui Transformers?
MLX-LM
API OpenAI

Tts

Parler-tts?
Melotts
Chattts

Pengaturan

Klon Repositori:

git clone https://github.com/huggingface/speech-to-speech.git
cd speech-to-speech

Instal dependensi yang diperlukan menggunakan UV:

uv pip install -r requirements.txt

Untuk pengguna Mac, gunakan file requirements_mac.txt sebagai gantinya:

uv pip install -r requirements_mac.txt

Jika Anda ingin menggunakan Melo TTS, Anda juga perlu menjalankan:

python -m unidic download

Penggunaan

Pipa dapat dijalankan dengan dua cara:

Pendekatan Server/Klien : Model yang dijalankan di server, dan input/output audio dialirkan dari klien.
Pendekatan Lokal : Berjalan secara lokal.

Pengaturan yang direkomendasikan

Pendekatan server/klien

Jalankan pipa di server:

python s2s_pipeline.py --recv_host 0.0.0.0 --send_host 0.0.0.0

Jalankan klien secara lokal untuk menangani input mikrofon dan menerima audio yang dihasilkan:
```
python listen_and_play.py --host < IP address of your server >
```

Pendekatan Lokal (Mac)

Untuk pengaturan optimal di Mac:

python s2s_pipeline.py --local_mac_optimal_settings

Pengaturan ini:

Menambahkan --device mps untuk menggunakan anggota parlemen untuk semua model.
- Mengatur lightningwhispermlx untuk stt
- Menetapkan MLX LM untuk model bahasa
- Mengatur Melotts untuk TTS

Server Docker

Instal NVIDIA Container Toolkit

https://docs.nvidia.com/datacenter/cloud-native/container--toolkit/latest/install-guide.html

Mulai wadah Docker

docker compose up

Penggunaan yang Direkomendasikan dengan Cuda

Leverage Torch Compile untuk Whisper dan Parler-TTS. Penggunaan Parler-TTS memungkinkan streaming output audio, lebih rendah mengurangi latensi yang berlebihan :

python s2s_pipeline.py 
	--lm_model_name microsoft/Phi-3-mini-4k-instruct 
	--stt_compile_mode reduce-overhead 
	--tts_compile_mode default 
  --recv_host 0.0.0.0 
	--send_host 0.0.0.0

Untuk saat ini, mode yang menangkap grafik CUDA tidak kompatibel dengan streaming Parler-TTS ( reduce-overhead , max-autotune ).

Dukungan multi-bahasa

Pipa saat ini mendukung bahasa Inggris, Prancis, Spanyol, Cina, Jepang, dan Korea.
Dua kasus penggunaan dipertimbangkan:

Percakapan Bahasa Tunggal : Menegakkan Pengaturan Bahasa Menggunakan-Bendera --language , Menentukan Kode Bahasa Target (default adalah 'en').
Pergantian Bahasa : Set --language ke 'Auto'. Dalam hal ini, Whisper mendeteksi bahasa untuk setiap prompt yang diucapkan, dan LLM diminta dengan " Please reply to my message in ... " untuk memastikan tanggapan dalam bahasa yang terdeteksi.

Harap dicatat bahwa Anda harus menggunakan pos pemeriksaan STT dan LLM yang kompatibel dengan bahasa target. Untuk bagian STT, Parler-TTS belum multibahasa (meskipun fitur itu akan segera hadir!?). Sementara itu, Anda harus menggunakan Melo (yang mendukung bahasa Inggris, Prancis, Spanyol, Cina, Jepang, dan Korea) atau Chat-TTS.

Dengan versi server:

Untuk deteksi bahasa otomatis:

python s2s_pipeline.py 
    --stt_model_name large-v3 
    --language auto 
    --mlx_lm_model_name mlx-community/Meta-Llama-3.1-8B-Instruct

Atau untuk satu bahasa khususnya, bahasa Cina dalam contoh ini

python s2s_pipeline.py 
    --stt_model_name large-v3 
    --language zh 
    --mlx_lm_model_name mlx-community/Meta-Llama-3.1-8B-Instruct

Pengaturan MAC Lokal

Untuk deteksi bahasa otomatis:

python s2s_pipeline.py 
    --local_mac_optimal_settings 
    --device mps 
    --stt_model_name large-v3 
    --language auto 
    --mlx_lm_model_name mlx-community/Meta-Llama-3.1-8B-Instruct-4bit

Atau untuk satu bahasa khususnya, bahasa Cina dalam contoh ini

python s2s_pipeline.py 
    --local_mac_optimal_settings 
    --device mps 
    --stt_model_name large-v3 
    --language zh 
    --mlx_lm_model_name mlx-community/Meta-Llama-3.1-8B-Instruct-4bit

Penggunaan baris perintah

Catatan: Referensi untuk semua argumen CLI dapat ditemukan secara langsung di kelas argumen atau dengan menjalankan python s2s_pipeline.py -h .

Parameter Level Modul

Lihat Kelas Modulearguments. Memungkinkan untuk mengatur:

A Common --device (jika seseorang ingin setiap bagian berjalan pada perangkat yang sama)
--mode local atau server
Implementasi STT yang dipilih
Implementasi LM yang dipilih
memilih implementasi TTS
level logging

Parameter VAD

Lihat kelas VadhandlerArguments. Terutama:

--thresh : Nilai ambang batas untuk memicu deteksi aktivitas suara.
--min_speech_ms : Durasi minimum aktivitas suara yang terdeteksi untuk dipertimbangkan.
--min_silence_ms : Panjang minimum interval keheningan untuk segmentasi pidato, penyeimbang pemotongan kalimat dan pengurangan latensi.

Parameter STT, LM dan TTS

model_name , torch_dtype , dan device diekspos untuk setiap implementasi pidato untuk teks, model bahasa, dan teks untuk berbicara. Tentukan bagian pipa yang ditargetkan dengan awalan yang sesuai (misalnya stt , lm atau tts , periksa kelas argumen implementasi untuk rincian lebih lanjut).

Misalnya:

--lm_model_name google/gemma-2b-it

Parameter pembuatan

Parameter generasi lain dari metode generat model dapat diatur menggunakan awalan bagian + _gen_ , misalnya, --stt_gen_max_new_tokens 128 . Parameter ini dapat ditambahkan ke kelas argumen bagian pipa jika belum diekspos.

Kutipan

Silero Vad

 @misc { Silero VAD,
  author = { Silero Team } ,
  title = { Silero VAD: pre-trained enterprise-grade Voice Activity Detector (VAD), Number Detector and Language Classifier } ,
  year = { 2021 } ,
  publisher = { GitHub } ,
  journal = { GitHub repository } ,
  howpublished = { url{https://github.com/snakers4/silero-vad} } ,
  commit = { insert_some_commit_here } ,
  email = { hello @ silero.ai }
}

Distil-whisper

 @misc { gandhi2023distilwhisper ,
      title = { Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling } ,
      author = { Sanchit Gandhi and Patrick von Platen and Alexander M. Rush } ,
      year = { 2023 } ,
      eprint = { 2311.00430 } ,
      archivePrefix = { arXiv } ,
      primaryClass = { cs.CL }
}

Parler-tts

 @misc { lacombe-etal-2024-parler-tts ,
  author = { Yoach Lacombe and Vaibhav Srivastav and Sanchit Gandhi } ,
  title = { Parler-TTS } ,
  year = { 2024 } ,
  publisher = { GitHub } ,
  journal = { GitHub repository } ,
  howpublished = { url{https://github.com/huggingface/parler-tts} }
}

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-02-25
ukuran 110.98KB
Berasal dari Github

Aplikasi Terkait

How to download hydrax abyss.to

2024-11-11
Kembali Ke Bumi

2023-08-09
bagaimana cara melarikan diri

2023-06-28
geser untuk membuka kunci

2023-06-19
Mati terhadap Hak

2022-08-27
Bangkit ke Reruntuhan

2022-08-23

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Kode sumber lainnya

1.0.0
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Kode sumber lainnya

1.0.0

Informasi Terkait Semua