RealtimeSTT_LLM_TTS Unduh - RealtimeSTT_LLM

RealtimeSTT_LLM_TTS

Kode Sumber AI

1.0.0

Unduh

中文说明

安装

Dukungan GPU dengan CUDA (Direkomendasikan)

Langkah-langkah tambahan diperlukan untuk instalasi yang dioptimalkan GPU . Langkah -langkah ini direkomendasikan untuk mereka yang membutuhkan kinerja yang lebih baik dan memiliki GPU NVIDIA yang kompatibel.

Catatan : Untuk memeriksa apakah GPU NVIDIA Anda mendukung CUDA, kunjungi daftar GPU CUDA resmi.

Untuk menggunakan RealTimestt dengan dukungan GPU melalui CUDA, ikuti langkah -langkah ini:

Instal Nvidia Cuda Toolkit 11.8 :
- Kunjungi Arsip Nvidia Cuda Toolkit.
- Pilih Sistem dan Versi Operasi.
- Unduh dan instal perangkat lunak.
Instal NVIDIA CUDNN 8.7.0 untuk CUDA 11.x :
- Kunjungi Arsip Nvidia Cudnn.
- Klik "Unduh Cudnn V8.7.0 (28 November 2022), untuk Cuda 11.x".
- Unduh dan instal perangkat lunak.
Instal FFMPEG :
Anda dapat mengunduh penginstal untuk OS Anda dari situs web FFMPEG.
Atau gunakan manajer paket:
- Di Ubuntu atau Debian :
```
sudo apt update && sudo apt install ffmpeg
```
- Di Arch Linux :
```
sudo pacman -S ffmpeg
```
- Pada macOS menggunakan homebrew (https://brew.sh/):
```
brew install ffmpeg
```
- Pada windows menggunakan cokelat (https://chocolatey.org/):
```
choco install ffmpeg
```
- Pada windows menggunakan scoop (https://scoop.sh/):
```
scoop install ffmpeg
```

Instal Pytorch dengan dukungan CUDA :

    pip uninstall torch
    pip install torch==2.0.1+cu118 torchaudio==2.0.2 --index-url https://download.pytorch.org/whl/cu118

其他依赖

pip install -r requirements.txt

Menangkan 如果装不上 WebRTCVAD ，提示了 vs C ++ 相关的报错，请下载 https://visualstudio.microsoft.com/zh-hans/visual-cpp-build-tools/ ， C ++ 开发相关工具，，，

使用说明

启动后端python RealtimeSTT_server2.py

双击index.html ，浏览器运行，填入服务器 ip 地址，注意，关闭服务器的防火墙，或者针对性放行 9001/9002 这两个用于 Websocket 连接的端口！

等待后端模型加载完毕后，就可以正常对话了。

更新日志

2024-07-01
- 修复 WebUi ，聊天类型无法保存的 Bug
- 给 WEBUI 的 OpenAi 的模型增加自定义配置功能，可以删除后，自定义完回车保存配置
2024-06-03
- 增加了唤醒词的配置，未启用唤醒词功能，测试了下可以通过唤醒词触发录音。唤醒一次，，
2024-06-02
- 新增了 Openai 接口的接入，测了 ollama ，没啥问题
- 新增了 edge-tts 的接入（方便测试）
2024-05-28
- 补充个 WebUi ，方便配置（不过并不完整，，
- 补充了 Gpt-Sovits 的新 API 的兼容

Realtimestt

Perpustakaan pidato-ke-teks yang mudah digunakan untuk aplikasi untuk aplikasi realtime

Tentang proyek

RealTimestt mendengarkan mikrofon dan menyalin suara ke dalam teks.

Itu ideal untuk:

Asisten suara
Aplikasi yang membutuhkan konversi pidato-ke-teks yang cepat dan tepat

Realtimestt.mp4

Pembaruan

V0.1.9

beralih ke torch.multiprocessing
Menambahkan Parameter Compute_Type, Input_Device_index dan GPU_DEVICE_INDEX
Recorder.Text () terganggu dengan recorder.abort ()
Perbaiki untuk #20

V0.1.8

Tambahkan contoh cara transkripsi realtime dari mikrofon browser
Model Whisper Besar-V3 sekarang didukung (upgrade ke faster_whisper 0.10.0)
Menambahkan parameter feed_audio () dan use_microphone untuk memberi makan potongan

V0.1.7

Bugfix untuk instalasi Mac OS (multiprocessing / queue.size ())
Penanganan keyboardinterrupt (sekarang dapat dibatalkan dengan ctrl+c)
Perbaikan bug untuk penanganan pemintal (dapat menyebabkan pengecualian dalam beberapa kasus)

V0.1.6

Mengimplementasikan protokol manajer konteks (perekam dapat digunakan dalam pernyataan with )
Perbaikan bug untuk manajemen sumber daya dalam metode shutdown

V0.1.5

Bugfix untuk mendeteksi pidato pendek tepat setelah deteksi kalimat (masalah yang disebutkan dalam video)
Transkripsi dan perekaman utama dipindahkan ke konteks proses yang terpisah dengan multiproses

Petunjuk: Karena kami menggunakan modul multiprocessing sekarang, pastikan untuk memasukkan if __name__ == '__main__': Perlindungan dalam kode Anda untuk mencegah perilaku yang tidak terduga, terutama pada platform seperti Windows. Untuk penjelasan terperinci tentang mengapa ini penting, kunjungi dokumentasi Python resmi tentang multiprocessing .

Fitur

Deteksi Aktivitas Suara : Secara otomatis mendeteksi saat Anda mulai dan berhenti berbicara.
Transkripsi Realtime : Mengubah Pidato ke SMS secara real-time.
Aktivasi Wake Word : Dapat diaktifkan setelah mendeteksi kata bangun yang ditunjuk.

Petunjuk : Lihat Realtimetts, rekan output dari perpustakaan ini, untuk kemampuan teks-ke-suara. Bersama -sama, mereka membentuk pembungkus audio realtime yang kuat di sekitar model bahasa besar.

Tumpukan teknologi

Perpustakaan ini menggunakan:

Deteksi aktivitas suara
- WEBRTCVAD untuk deteksi aktivitas suara awal.
- Silerovad untuk verifikasi yang lebih akurat.
Pidato-ke-teks
- Faster_whisper untuk transkripsi instan (GPU-diperkenalkan).
Bangun Deteksi Kata
- Landak untuk deteksi kata Wake.

Komponen-komponen ini mewakili "standar industri" untuk aplikasi mutakhir, memberikan fondasi paling modern dan efektif untuk membangun solusi kelas atas.

Instalasi 安装

pip install RealtimeSTT

Ini akan menginstal semua dependensi yang diperlukan, termasuk versi Pytorch yang hanya mendukung CPU .

Meskipun dimungkinkan untuk menjalankan realtimestt dengan instalasi CPU saja (gunakan model kecil seperti "Tiny" atau "base" dalam kasus ini) Anda akan mendapatkan pengalaman yang lebih baik menggunakan:

Dukungan GPU dengan CUDA (Direkomendasikan)

Langkah-langkah tambahan diperlukan untuk instalasi yang dioptimalkan GPU . Langkah -langkah ini direkomendasikan untuk mereka yang membutuhkan kinerja yang lebih baik dan memiliki GPU NVIDIA yang kompatibel.

Catatan : Untuk memeriksa apakah GPU NVIDIA Anda mendukung CUDA, kunjungi daftar GPU CUDA resmi.

Untuk menggunakan RealTimestt dengan dukungan GPU melalui CUDA, ikuti langkah -langkah ini:

Instal Nvidia Cuda Toolkit 11.8 :
- Kunjungi Arsip Nvidia Cuda Toolkit.
- Pilih Sistem dan Versi Operasi.
- Unduh dan instal perangkat lunak.
Instal NVIDIA CUDNN 8.7.0 untuk CUDA 11.x :
- Kunjungi Arsip Nvidia Cudnn.
- Klik "Unduh Cudnn V8.7.0 (28 November 2022), untuk Cuda 11.x".
- Unduh dan instal perangkat lunak.
Instal FFMPEG :
Anda dapat mengunduh penginstal untuk OS Anda dari situs web FFMPEG.
Atau gunakan manajer paket:
- Di Ubuntu atau Debian :
```
sudo apt update && sudo apt install ffmpeg
```
- Di Arch Linux :
```
sudo pacman -S ffmpeg
```
- Pada macOS menggunakan homebrew (https://brew.sh/):
```
brew install ffmpeg
```
- Pada windows menggunakan cokelat (https://chocolatey.org/):
```
choco install ffmpeg
```
- Pada windows menggunakan scoop (https://scoop.sh/):
```
scoop install ffmpeg
```

Instal Pytorch dengan dukungan CUDA :

pip uninstall torch
pip install torch==2.0.1+cu118 torchaudio==2.0.2 --index-url https://download.pytorch.org/whl/cu118

Awal yang cepat

Penggunaan Dasar:

Rekaman manual

Mulai dan berhenti merekam dipicu secara manual.

 recorder . start ()
recorder . stop ()
print ( recorder . text ())

Perekaman Otomatis

Rekaman berdasarkan deteksi aktivitas suara.

 with AudioToTextRecorder () as recorder :
    print ( recorder . text ())

Saat menjalankan perekam.

 def process_text ( text ):
    print ( text )
    
while True :
    recorder . text ( process_text )

Kata bangun

Aktivasi kata kunci sebelum mendeteksi suara. Tulis daftar kata kunci aktivasi yang Anda inginkan secara koma yang diinginkan ke dalam parameter Wake_Words. Anda dapat memilih kata Wake dari daftar ini: Alexa, Americano, Blueberry, Bumblebee, komputer, grapefruits, belalang, hei google, hey siri, jarvis, ok google, picovoice, landak, terminator.

 recorder = AudioToTextRecorder ( wake_words = "jarvis" )

print ( 'Say "Jarvis" then speak.' )
print ( recorder . text ())

Panggilan balik

Anda dapat menetapkan fungsi callback untuk dieksekusi pada berbagai acara (lihat konfigurasi):

 def my_start_callback ():
    print ( "Recording started!" )

def my_stop_callback ():
    print ( "Recording stopped!" )

recorder = AudioToTextRecorder ( on_recording_start = my_start_callback ,
                               on_recording_stop = my_stop_callback )

Makan potongan

Jika Anda tidak ingin menggunakan parameter Mikrofon Lokal Use_microphone untuk salah dan menyediakan audiokunk PCM mentah dalam mono 16-bit (samplerate 16000) dengan metode ini:

 recorder . feed_audio ( audio_chunk )

Penutupan

Anda dapat mematikan perekam dengan aman dengan menggunakan protokol Context Manager:

 with AudioToTextRecorder () as recorder :
    [...]

Atau Anda dapat memanggil metode shutdown secara manual (jika menggunakan "dengan" tidak layak):

 recorder . shutdown ()

Menguji perpustakaan

Subdirektori uji berisi satu set skrip untuk membantu Anda mengevaluasi dan memahami kemampuan perpustakaan Realtimetts.

Uji skrip tergantung pada perpustakaan Realtimetts mungkin mengharuskan Anda untuk memasuki wilayah layanan Azure Anda di dalam skrip. Saat menggunakan skrip openai-, Azure- atau Elevenlabs terkait Demo, tombol API harus disediakan dalam variabel lingkungan OpenAI_API_KEY, AZURE_SPEECH_KEY dan Elevenlabs_api_key (lihat Realtimetts)

Simple_test.py
- Deskripsi : Demonstrasi gaya "Hello World" dari penggunaan paling sederhana perpustakaan.
realtimestt_test.py
- Deskripsi : Menampilkan transkripsi langsung.
Wakword_test.py
- Deskripsi : Demonstrasi aktivasi Kata Wake.
translator.py
- Ketergantungan : Jalankan pip install openai realtimetts .
- Deskripsi : Terjemahan real-time ke dalam enam bahasa yang berbeda.
openai_voice_interface.py
- Ketergantungan : Jalankan pip install openai realtimetts .
- Deskripsi : Bangun Word Activated dan antarmuka pengguna berbasis suara ke API OpenAI.
Advanced_talk.py
- Ketergantungan : Jalankan pip install openai keyboard realtimetts .
- Deskripsi : Pilih mesin dan suara TTS sebelum memulai percakapan AI.
minimalistik_talkbot.py
- Ketergantungan : Jalankan pip install openai realtimetts .
- Deskripsi : Talkbot dasar dalam 20 baris kode.

Subdirektori example_app berisi aplikasi antarmuka pengguna yang dipoles untuk API OpenAI berdasarkan PYQT5.

Konfigurasi

Parameter Inisialisasi untuk `AudioToTextRecorder`

Saat Anda menginisialisasi kelas AudioToTextRecorder , Anda memiliki berbagai opsi untuk menyesuaikan perilakunya.

Parameter umum

Model (str, default = "Tiny"): Ukuran atau jalur model untuk transkripsi.
- Opsi: 'Tiny', 'Tiny.en', 'Base', 'Base.en', 'Small', 'Small.en', 'Medium', 'Medium.en', 'Besar-V1', 'V2 Besar'.
- CATATAN: Jika suatu ukuran disediakan, model akan diunduh dari hub wajah pelukan.
Bahasa (str, default = ""): Kode bahasa untuk transkripsi. Jika dibiarkan kosong, model akan mencoba mendeteksi bahasa secara otomatis. Kode bahasa yang didukung tercantum di Whisper Tokenizer Library.
compute_type (str, default = "default"): Menentukan jenis perhitungan yang akan digunakan untuk transkripsi. Lihat kuantisasi Whisper
input_device_index (int, default = 0): Indeks perangkat input audio untuk digunakan.
GPU_DEVICE_INDEX (int, default = 0): Indeks perangkat GPU untuk digunakan. Model ini juga dapat dimuat pada beberapa GPU dengan melewati daftar ID (misalnya [0, 1, 2, 3]).
ON_RECORDING_START : Fungsi yang dapat dipanggil dipicu saat perekaman dimulai.
ON_RECORDING_STOP : Fungsi yang dapat dipanggil dipicu saat perekaman berakhir.
On_transcription_Start : Fungsi yang dapat dipanggil dipicu saat transkripsi dimulai.
Paste_sentence_startting_uppercase (bool, default = true): memastikan bahwa setiap kalimat yang terdeteksi oleh algoritma dimulai dengan huruf besar.
Paste_sentence_ends_with_period (bool, default = true): memastikan bahwa setiap kalimat yang tidak berakhir dengan tanda baca seperti "?", "!" diakhiri dengan periode
use_microphone (bool, default = true): Penggunaan mikrofon lokal untuk transkripsi. Setel ke false jika Anda ingin memberikan potongan metode feed_audio.
Spinner (bool, default = true): Menyediakan teks animasi spinner dengan informasi tentang status perekam saat ini.
Level (int, default = logging.warning): Level logging.

Parameter transkripsi real-time

Catatan : Saat mengaktifkan Deskripsi Realtime Instalasi GPU sangat disarankan. Menggunakan transkripsi realtime dapat membuat beban GPU yang tinggi.

enable_realtime_transcription (bool, default = false): Mengaktifkan atau menonaktifkan transkripsi audio waktu nyata. Ketika diatur ke True, audio akan ditranskripsi terus menerus saat sedang direkam.
realtime_model_type (str, default = "Tiny"): Menentukan ukuran atau jalur model pembelajaran mesin yang akan digunakan untuk transkripsi real-time.
- Opsi yang valid: 'Tiny', 'Tiny.en', 'Base', 'Base.en', 'Small', 'Small.en', 'Medium', 'Medium.en', 'Besar-V1', 'V2 Besar'.
RealTime_Processing_Pause (float, default = 0.2): Menentukan interval waktu dalam detik setelah sepotong audio ditranskripsikan. Nilai yang lebih rendah akan menghasilkan lebih banyak pembaruan transkripsi "real-time" (sering) tetapi dapat meningkatkan beban komputasi.
on_realtime_transcription_update : fungsi panggilan balik yang dipicu setiap kali ada pembaruan dalam transkripsi waktu-nyata. Fungsi ini disebut dengan teks yang baru ditranskripsi sebagai argumennya.
on_realtime_transcription_stabilisasi : fungsi panggilan balik yang dipicu setiap kali ada pembaruan dalam transkripsi waktu-nyata dan mengembalikan teks yang lebih tinggi dan stabil sebagai argumennya.

Parameter aktivasi suara

Silero_sensitivity (float, default = 0,6): Sensitivitas untuk deteksi aktivitas suara Silero mulai dari 0 (paling tidak sensitif) hingga 1 (paling sensitif). Default adalah 0,6.
Silero_sensitivity (float, default = 0,6): Sensitivitas untuk deteksi aktivitas suara Silero mulai dari 0 (paling tidak sensitif) hingga 1 (paling sensitif). Default adalah 0,6.
silero_use_onnx (bool, default = false): Mengaktifkan penggunaan model pra-terlatih dari Silero dalam format Onnx (Open Neural Network Exchange) alih-alih format pytorch. Default salah. Direkomendasikan untuk kinerja yang lebih cepat.
POST_SPEECH_SILENCE_DURASI (float, default = 0.2): Durasi dalam detik keheningan yang harus mengikuti pidato sebelum rekaman dianggap selesai. Ini memastikan bahwa setiap jeda singkat selama pidato tidak secara prematur mengakhiri rekaman.
min_gap_between_recordings (float, default = 1.0): Menentukan interval waktu minimum dalam detik yang seharusnya ada antara akhir satu sesi perekaman dan awal yang lain untuk mencegah rekaman berturut -turut yang cepat.
min_length_of_recording (float, default = 1.0): Menentukan durasi minimum dalam detik bahwa sesi perekaman harus bertahan untuk memastikan penangkapan audio yang bermakna, mencegah rekaman yang terlalu pendek atau terfragmentasi.
pre_recording_buffer_duration (float, default = 0.2): Rentang waktu, dalam detik, di mana audio buffered sebelum perekaman formal. Ini membantu mengimbangi latensi yang melekat dalam deteksi aktivitas bicara, memastikan tidak ada audio awal yang terlewatkan.
ON_VAD_DETECT_START : Fungsi yang dapat dipanggil dipicu ketika sistem mulai mendengarkan aktivitas suara.
ON_VAD_DETECT_STOP : Fungsi yang dapat dipanggil dipicu ketika sistem berhenti untuk mendengarkan aktivitas suara.

Bangun parameter kata

Wake_words (str, default = ""): Bangun kata -kata untuk memulai perekaman. Beberapa kata bangun dapat disediakan sebagai string yang dipisahkan koma. Kata -kata bangun yang didukung adalah: Alexa, Americano, Blueberry, Bumblebee, Komputer, Grapefruits, Grasshopper, Hei Google, Hei Siri, Jarvis, Ok Google, Picovoice, Porcupine, Terminator
Wake_words_sensitivity (float, default = 0.6): Level sensitivitas untuk deteksi Wake Word (0 untuk paling tidak sensitif, 1 untuk paling sensitif).
Wake_word_activation_delay (float, default = 0): Durasi dalam detik setelah dimulainya pemantauan sebelum sistem beralih untuk membangunkan aktivasi kata jika tidak ada suara yang awalnya terdeteksi. Jika diatur ke nol, sistem menggunakan aktivasi Wake Word segera.
Wake_word_timeout (float, default = 5): Durasi dalam detik setelah kata Wake dikenali. Jika tidak ada aktivitas suara selanjutnya yang terdeteksi dalam jendela ini, sistem transisi kembali ke keadaan tidak aktif, menunggu kata bangun berikutnya atau aktivasi suara.
ON_WAKEWORD_DETECTED : Fungsi yang dapat dipanggil dipicu saat kata bangun terdeteksi.
ON_WAKEWORD_TIMEOUT : Fungsi yang dapat dipanggil dipicu ketika sistem kembali ke keadaan tidak aktif setelah ketika tidak ada pidato yang terdeteksi setelah aktivasi Wake Word.
on_wakeword_detection_start : fungsi yang dapat dipanggil dipicu saat sistem mulai mendengarkan kata bangun
on_wakeword_detection_end : Fungsi yang dapat dipanggil dipicu saat berhenti untuk mendengarkan kata bangun (misalnya karena batas waktu atau bangun kata terdeteksi)