speech to speech下載 - speech to speech源代碼下載

speech to speech

其他源碼

1.0.0

下載

演講：開源和模塊化GPT4-O的努力

快速索引

方法
- 結構
- 模塊化
設定
用法
- Docker服務器方法
- 服務器/客戶端方法
- 本地方法
命令行的用法
- 模型參數
- 生成參數
- 值得注意的參數

方法

結構

該存儲庫實現了語音到語音的級聯管道，該管道由以下部分組成：

語音活動檢測（VAD）
對文字的講話（STT）
語言模型（LM）
語音文字（TTS）

模塊化

該管道提供了一種完全開放的模塊化方法，重點是通過擁抱面輪上的變形金剛庫可用的模型。該代碼設計用於易於修改，我們已經支持特定於設備的和外部庫的實現：

vad

Silero VAD V5

stt

通過變形金剛在擁抱面樞紐上的任何耳語模型檢查站？
閃電耳語MLX
Paraformer -funasr

LLM

通過變形金剛在擁抱面中心上有任何指示跟隨模型嗎？
MLX-LM
Openai API

TTS

parler-tts？
梅洛特
查特

設定

克隆存儲庫：

git clone https://github.com/huggingface/speech-to-speech.git
cd speech-to-speech

使用UV安裝所需的依賴項：

uv pip install -r requirements.txt

對於Mac用戶，請改用requirements_mac.txt文件：

uv pip install -r requirements_mac.txt

如果要使用Melo TTS，也需要運行：

python -m unidic download

用法

管道可以通過兩種方式運行：

服務器/客戶端方法：在服務器上運行的模型，並且從客戶端流出了音頻輸入/輸出。
本地方法：在本地運行。

服務器/客戶端方法

在服務器上運行管道：

python s2s_pipeline.py --recv_host 0.0.0.0 --send_host 0.0.0.0

在本地運行客戶端以處理麥克風輸入並接收生成的音頻：
```
python listen_and_play.py --host < IP address of your server >
```

本地方法（MAC）

對於Mac上的最佳設置：

python s2s_pipeline.py --local_mac_optimal_settings

此設置：

添加--device mps將MPS用於所有型號。
- 將Lightningwhispermlx設置為STT
- 為語言模型設置MLX LM
- 將Melotts設置為TTS

Docker服務器

安裝NVIDIA容器工具包

https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html

啟動Docker容器

docker compose up

多語言支持

該管道目前支持英語，法語，西班牙語，中文，日語和韓語。
考慮了兩種用例：

單語言對話：使用--language標誌來執行語言設置，指定目標語言代碼（默認為'en'）。
語言切換：設置--language為“自動”。在這種情況下，Whisper檢測到每個口語提示的語言，LLM的提示是“ Please reply to my message in ... ”，以確保響應使用被檢測到的語言。

請注意，您必須使用與目標語言兼容的STT和LLM檢查點。對於STT部分，Parler-TTS尚未多語言（儘管該功能即將推出！？）。同時，您應該使用MELO（支持英語，法語，西班牙語，中文，日語和韓語）或CHAT-TTS。

使用服務器版本：

用於自動語言檢測：

python s2s_pipeline.py 
    --stt_model_name large-v3 
    --language auto 
    --mlx_lm_model_name mlx-community/Meta-Llama-3.1-8B-Instruct

或尤其是一種語言，在此示例中中文

python s2s_pipeline.py 
    --stt_model_name large-v3 
    --language zh 
    --mlx_lm_model_name mlx-community/Meta-Llama-3.1-8B-Instruct

本地MAC設置

用於自動語言檢測：

python s2s_pipeline.py 
    --local_mac_optimal_settings 
    --device mps 
    --stt_model_name large-v3 
    --language auto 
    --mlx_lm_model_name mlx-community/Meta-Llama-3.1-8B-Instruct-4bit

或尤其是一種語言，在此示例中中文

python s2s_pipeline.py 
    --local_mac_optimal_settings 
    --device mps 
    --stt_model_name large-v3 
    --language zh 
    --mlx_lm_model_name mlx-community/Meta-Llama-3.1-8B-Instruct-4bit

命令行的用法

注意：所有CLI參數的參考可以直接在參數類中或通過運行python s2s_pipeline.py -h找到。

模塊級參數

請參閱Modulearguments類。允許設置：

一個常見的--device （如果希望每個零件在同一設備上運行）
--mode local或server
選定的STT實現
選定的LM實施
選擇TTS實施
記錄級別

VAD參數

請參閱vadhandlerarguments類。尤其：

--thresh ：觸發語音活動檢測的閾值值。
--min_speech_ms ：被視為語音的檢測到的語音活動的最小持續時間。
--min_silence_ms ：靜音間隔的最小長度，用於分割語音，平衡句子切割和減少延遲。

STT，LM和TTS參數

對於文本，語言模型和語音文本的每個實現， model_name ， torch_dtype和device都會暴露出來。用相應的前綴（例如stt ， lm或tts指定目標管道部分，檢查實現的參數類以獲取更多詳細信息）。

例如：

--lm_model_name google/gemma-2b-it

生成參數

可以使用零件的前綴 + _gen_ ，例如， --stt_gen_max_new_tokens 128設置模型生成方法的其他生成參數。如果尚未公開，可以將這些參數添加到管道部分的參數類中。

引用

Silero VAD

 @misc { Silero VAD,
  author = { Silero Team } ,
  title = { Silero VAD: pre-trained enterprise-grade Voice Activity Detector (VAD), Number Detector and Language Classifier } ,
  year = { 2021 } ,
  publisher = { GitHub } ,
  journal = { GitHub repository } ,
  howpublished = { url{https://github.com/snakers4/silero-vad} } ,
  commit = { insert_some_commit_here } ,
  email = { hello @ silero.ai }
}

扭曲

 @misc { gandhi2023distilwhisper ,
      title = { Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling } ,
      author = { Sanchit Gandhi and Patrick von Platen and Alexander M. Rush } ,
      year = { 2023 } ,
      eprint = { 2311.00430 } ,
      archivePrefix = { arXiv } ,
      primaryClass = { cs.CL }
}

Parler-tts

 @misc { lacombe-etal-2024-parler-tts ,
  author = { Yoach Lacombe and Vaibhav Srivastav and Sanchit Gandhi } ,
  title = { Parler-TTS } ,
  year = { 2024 } ,
  publisher = { GitHub } ,
  journal = { GitHub repository } ,
  howpublished = { url{https://github.com/huggingface/parler-tts} }
}