RealtimeSTT_LLM_TTS下載RealtimeSTT_LLM

RealtimeSTT_LLM_TTS

Ai源碼

1.0.0

下載

中文說明

安裝

GPU支持CUDA（推薦）

GPU優化安裝需要其他步驟。建議那些需要更好性能並具有兼容的NVIDIA GPU的人。

注意：要檢查您的NVIDIA GPU是否支持CUDA，請訪問官方的CUDA GPU列表。

要通過CUDA使用GPU支持的Realtimestt，請按照以下步驟：

安裝NVIDIA CUDA工具包11.8 ：
- 訪問NVIDIA CUDA工具包檔案。
- 選擇操作系統和版本。
- 下載並安裝軟件。
為CUDA 11.x安裝NVIDIA CUDNN 8.7.0 ：
- 訪問Nvidia Cudnn檔案館。
- 單擊“下載Cudnn v8.7.0（2022年11月28日），for Cuda 11.x”。
- 下載並安裝軟件。
安裝FFMPEG ：
您可以從FFMPEG網站下載OS的安裝程序。
或使用軟件包管理器：
- 在Ubuntu或Debian上：
```
sudo apt update && sudo apt install ffmpeg
```
- 在Arch Linux上：
```
sudo pacman -S ffmpeg
```
- 在MacOS上使用Homebrew （https://brew.sh/）：
```
brew install ffmpeg
```
- 在窗戶上使用巧克力（https://chocalyy.org/）：
```
choco install ffmpeg
```
- 在Windows上使用SCOOP （https://scoop.sh/）：
```
scoop install ffmpeg
```

安裝帶有CUDA支持的Pytorch ：

    pip uninstall torch
    pip install torch==2.0.1+cu118 torchaudio==2.0.2 --index-url https://download.pytorch.org/whl/cu118

其他依賴

pip install -r requirements.txt

贏了webrtcvad，提示了vs vs c ++相關的報錯，https：//visalstudio.microsoft.com/zh-hans/visual-cpp-build-tools/，安裝c ++開發相關工具

使用說明

啟動後端python RealtimeSTT_server2.py

雙擊index.html ，瀏覽器運行

等待後端模型加載完畢後，就可以正常對話了。，就可以正常對話了。

更新日誌

2024-07-01
- 修復webui，聊天類型無法保存的錯誤
- 給webui的openai的模型增加自定義配置功能，可以刪除後，自定義完回車保存配置
2024-06-03
- 增加了，未啟用喚醒詞功能，測試了下可以通過喚醒詞觸發錄音。喚醒一次，說一些話。，說一些話。
2024-06-02
- 新增了openai接口的接入，測了ollama，沒啥問題
- 新增了（邊緣tts）
2024-05-28
- 補充個webui，方便配置（不過並不完整，湊合用）
- 補充了gpt-sovits的新api的兼容

Realtimestt

實時應用程序易於使用的低延遲語音到文本庫

關於項目

Realtimestt聆聽麥克風，並將語音轉錄為文本。

這是理想的選擇：

語音助手
需要快速，精確的語音轉換的申請

Realtimestt.mp4

更新

V0.1.9

切換到火炬
添加compute_type，input_device_index和gpu_device_index參數
recorder.text（）可與recorder.abort（）中斷
修復＃20

V0.1.8

添加瞭如何實時從瀏覽器麥克風轉錄的示例
大型V3耳語模型現在得到了支持（升級到更快的_whisper 0.10.0）
添加了feed_audio（）和use_microphone參數以饋送塊

V0.1.7

Mac OS安裝的BugFix（多處理 / queue.size（））
鍵盤干擾（現在可以使用CTRL+C中止）
用於旋轉器處理的BugFix（在某些情況下可能導致例外）

V0.1.6

實施上下文管理器協議（可以在with中使用錄音機）
用於關閉方法中資源管理的錯誤文件

V0.1.5

句子檢測後立即檢測短語音的錯誤文件（視頻中提到的問題）
主轉錄和記錄通過多處理移至單獨的過程上下文

提示：由於我們現在使用multiprocessing模塊，因此請確保包括if __name__ == '__main__':在您的代碼中進行保護以防止意外行為，尤其是在Windows之類的平台上。有關為什麼這很重要的詳細說明，請訪問multiprocessing的官方Python文檔。

特徵

語音活動檢測：自動檢測您何時開始和停止說話。
實時轉錄：將語音實時轉換為文本。
喚醒單詞激活：可以在檢測指定的喚醒單詞時激活。

提示：查看本庫的輸出對應物的Realtimetts，以獲取文本到聲音功能。它們一起在大型語言模型上形成了強大的實時音頻包裝器。

技術堆棧

該庫使用：

語音活動檢測
- Webrtcvad用於初始語音活動檢測。
- Silerovad以進行更準確的驗證。
語音到文本
- 更快的速度（GPU加速）轉錄。
喚醒單詞檢測
- 豪豬以喚醒單詞檢測。

這些組件代表了最先進應用程序的“行業標準”，為建築高端解決方案提供了最現代有效的基礎。

安裝安裝

pip install RealtimeSTT

這將安裝所有必要的依賴項，包括僅CPU支持版本的Pytorch版本。

儘管只能使用CPU安裝運行RealTimestt（在這種情況下使用“ Tiny”或“ Base”）的小型型號（在這種情況下使用），您將使用以下方式獲得更好的體驗：

GPU支持CUDA（推薦）

GPU優化安裝需要其他步驟。建議那些需要更好性能並具有兼容的NVIDIA GPU的人。

注意：要檢查您的NVIDIA GPU是否支持CUDA，請訪問官方的CUDA GPU列表。

要通過CUDA使用GPU支持的Realtimestt，請按照以下步驟：

安裝NVIDIA CUDA工具包11.8 ：
- 訪問NVIDIA CUDA工具包檔案。
- 選擇操作系統和版本。
- 下載並安裝軟件。
為CUDA 11.x安裝NVIDIA CUDNN 8.7.0 ：
- 訪問Nvidia Cudnn檔案館。
- 單擊“下載Cudnn v8.7.0（2022年11月28日），for Cuda 11.x”。
- 下載並安裝軟件。
安裝FFMPEG ：
您可以從FFMPEG網站下載OS的安裝程序。
或使用軟件包管理器：
- 在Ubuntu或Debian上：
```
sudo apt update && sudo apt install ffmpeg
```
- 在Arch Linux上：
```
sudo pacman -S ffmpeg
```
- 在MacOS上使用Homebrew （https://brew.sh/）：
```
brew install ffmpeg
```
- 在窗戶上使用巧克力（https://chocalyy.org/）：
```
choco install ffmpeg
```
- 在Windows上使用SCOOP （https://scoop.sh/）：
```
scoop install ffmpeg
```

安裝帶有CUDA支持的Pytorch ：

pip uninstall torch
pip install torch==2.0.1+cu118 torchaudio==2.0.2 --index-url https://download.pytorch.org/whl/cu118

快速開始

基本用法：

手動記錄

錄製的開始和停止是手動觸發的。

 recorder . start ()
recorder . stop ()
print ( recorder . text ())

自動記錄

根據語音活動檢測進行錄製。

 with AudioToTextRecorder () as recorder :
    print ( recorder . text ())

在循環中運行recorder.text時，建議使用回調，允許轉錄不同步：

 def process_text ( text ):
    print ( text )
    
while True :
    recorder . text ( process_text )

Wakewords

在檢測語音之前，關鍵字激活。將所需激活關鍵字的逗號分隔列表寫入Wake_words參數。您可以從這些列表中選擇喚醒單詞：Alexa，Americano，Blueberry，Bumblebee，Computer，Grapefruits，Grasshopper，Hey Google，Hey Siri，Jarvis，Ok Google，Picovoice，Picovoice，Picovoice，Porcupine，terminator，terminator。

 recorder = AudioToTextRecorder ( wake_words = "jarvis" )

print ( 'Say "Jarvis" then speak.' )
print ( recorder . text ())

回調

您可以將回調函數設置為在不同事件上執行（請參閱配置）：

 def my_start_callback ():
    print ( "Recording started!" )

def my_stop_callback ():
    print ( "Recording stopped!" )

recorder = AudioToTextRecorder ( on_recording_start = my_start_callback ,
                               on_recording_stop = my_stop_callback )

進食塊

如果您不想將本地麥克風集使用use_microphone參數用於false，並使用此方法提供16位單聲道（採樣16000）的RAW PCM AudioChunks：

 recorder . feed_audio ( audio_chunk )

關閉

您可以使用上下文管理協議安全地關閉錄音機：

 with AudioToTextRecorder () as recorder :
    [...]

或者，您可以手動調用關閉方法（如果使用“與”不可行）：

 recorder . shutdown ()

測試庫

測試子目錄包含一組腳本，以幫助您評估和了解Realtimetts庫的功能。

測試腳本取決於Realtimetts庫，可能需要您在腳本中輸入Azure服務區域。使用OpenAi-，Azure-或ElevenLabs與演示腳本時，應在環境變量OpenAi_Api_Key，Azure_speech_key和Eleevenlabs_api_key中提供API鍵（請參閱realtimetts）

simple_test.py
- 描述：圖書館最簡單用法的“ Hello World”風格演示。
realtimestt_test.py
- 描述：展示實時轉錄。
wakeword_test.py
- 描述：喚醒詞激活的演示。
translator.py
- 依賴項：運行pip install openai realtimetts 。
- 描述：實時翻譯成六種不同的語言。
OpenAI_VOICE_INTERFACE.PY
- 依賴項：運行pip install openai realtimetts 。
- 描述：喚醒單詞激活和基於語音的用戶界面到OpenAI API。
Advanced_talk.py
- 依賴項：運行pip install openai keyboard realtimetts 。
- 描述：在開始AI對話之前選擇TTS引擎和聲音。
minimalistic_talkbot.py
- 依賴項：運行pip install openai realtimetts 。
- 描述：20行代碼中的基本談話機器人。

example_app子目錄包含基於pyqt5的OpenAI API的拋光用戶界面應用程序。

配置

`AudioToTextRecorder`的初始化參數

當您初始化AudioToTextRecorder類時，您有多種選擇來自定義其行為。

一般參數

模型（str，默認值=“ tiny”）：轉錄的模型大小或路徑。
- 選項：'tiny'，'tiny.en'，“ base”，“ base.en”，“ small”，“ small.en”，“中'”，“中等”，“中v1”，“大v2”。
- 注意：如果提供了尺寸，則將從擁抱面樞紐下載該型號。
語言（str，default =“”）：轉錄語言代碼。如果剩下空白，則該模型將嘗試自動檢測該語言。受支持的語言代碼在Whisper令牌庫中列出。
compute_type （str，default =“ default”）：指定用於轉錄的計算類型。請參閱耳語量化
input_device_index （int，default = 0）：要使用的音頻輸入設備索引。
gpu_device_index （int，默認值= 0）：使用GPU設備索引。該模型也可以通過傳遞ID列表（例如[0，1，2，3]）來加載多個GPU。
on_recording_start ：錄製啟動時觸發的可可函數。
on_recording_stop ：記錄結束時觸發的可呼叫功能。
on_transcription_start ：轉錄開始時觸發的可可函數。
suse_sentence_starting_uppercase （bool，default = true）：確保算法檢測到的每個句子以大寫字母開頭。
suse_sentence_ends_with_period （bool，default = true）：確保每個句子不會以標點符號結尾，例如“？”，“！”以一段時間結尾
use_microphone （bool，默認值= true）：用於轉錄的局部麥克風。如果要使用feed_audio方法提供塊，則設置為false。
Spinner （bool，default = true）：提供一個Spinner動畫文本，其中包含有關當前錄音機狀態的信息。
級別（int，default = logging.warning）：記錄級別。

實時轉錄參數

注意：強烈建議使用實時說明GPU安裝。使用實時轉錄可能會產生高GPU負載。

enable_realtime_transcription （bool，default = false）：啟用或禁用音頻的實時轉錄。當設置為true時，音頻將在記錄下連續轉錄。
REALTIME_MODEL_TYPE （str，default =“ tiny”）：指定用於實時轉錄的機器學習模型的大小或路徑。
- 有效的選項：“ tiny”，“ tiny.en”，“ base”，“ base.en”，“ small”，“ small.en”，“中'”，“ edimed.en”，“大v1”，“大v2”。
REALTIME_PROCESSING_PAUSE （FLOAT，默認值= 0.2）：指定在轉錄一大片音頻後以秒為單位的時間間隔。較低的值將導致更多的“實時”（頻繁）轉錄更新，但可能會增加計算負載。
on_realtime_transcription_update ：每當實時轉錄中有更新時會觸發的回調函數。該函數以新抄錄的文本為其參數調用。
on_realtime_transcription_stabilized ：每當實時轉錄中有更新並返回更高質量，穩定的文本作為其參數時，它會觸發的回調函數。

語音激活參數

silero_sensitivity （float，默認值= 0.6）：Silero語音活動檢測的靈敏度從0（最不靈敏）到1（最敏感）。默認值為0.6。
silero_sensitivity （float，默認值= 0.6）：Silero語音活動檢測的靈敏度從0（最不靈敏）到1（最敏感）。默認值為0.6。
SILERO_USE_ONNX （bool，default = false）：啟用silero中的預訓練模型以ONNX（開放神經網絡交換）格式而不是pytorch格式使用。默認值為false。建議更快的性能。
POST_SPEECH_SILENCE_DURATION （float，默認值= 0.2）：持續時間以秒數為單位，必須在錄製之前遵循語音。這樣可以確保演講期間的任何簡短暫停都不會過早結束錄音。
min_gap_between_recordings （float，default = 1.0）：指定在一個錄製會話結束和另一個錄製會話結束之間應存在的最小時間間隔，以防止快速連續記錄。
min_length_of_recording （float，默認值= 1.0）：指定錄製會話應持續的秒鐘內的最小持續時間，以確保有意義的音頻捕獲，以防止過度短或碎片的記錄。
pre_recording_buffer_duration （float，默認值= 0.2）：在秒內的時間跨度，在此之前，音頻在正式記錄之前進行緩衝。這有助於平衡語音活動檢測中固有的延遲，確保不會錯過初始音頻。
ON_VAD_DETECT_START ：系統開始收聽語音活動時觸發的可呼叫函數。
ON_VAD_DETECT_STOP ：當系統停止偵聽語音活動時，觸發了可可的功能。

喚醒字參數

wake_words （str，default =“”）：用於啟動記錄的喚醒單詞。可以作為逗號分隔字符串提供多個喚醒單詞。受支持的喚醒單詞是：Alexa，Americano，Blueberry，Bumblebee，Computer，Grapefruits，Grasshopper，Hey Google，Hey Siri，Jarvis，OK Google，Picovoice，Picovoice，Picovoice，Porcupine，Porcupine，terminator，Terminator
wake_words_sensitivity （float，默認值= 0.6）：喚醒單詞檢測的靈敏度級別（至少敏感為0，對大多數敏感）。
wake_word_activation_delay （float，默認值= 0）：如果最初檢測到沒有聲音，則在系統切換到Wake Word激活之前，在監視開始後的持續時間。如果設置為零，則係統立即使用喚醒單詞激活。
wake_word_timeout （float，默認值= 5）：識別喚醒單詞後的持續時間。如果在此窗口中未檢測到隨後的語音活動，則係統將過渡到不活動狀態，等待下一個喚醒單詞或語音激活。
on_wakeword_detected ：檢測到喚醒單詞時觸發的可可函數。
on_wakeword_timeout ：當系統返回到喚醒單詞激活後未檢測到的語音後，系統返回到不活動狀態時，觸發了一個可可函數。
on_wakeword_detection_start ：系統開始聆聽喚醒單詞時觸發的可可函數
on_wakeword_detection_end ：停止聆聽喚醒單詞時觸發的可呼叫函數（例如，檢測到超時或喚醒單詞）