speech to speech下载 - speech to speech源代码下载

speech to speech

其他源码

1.0.0

下载

演讲：开源和模块化GPT4-O的努力

快速索引

方法
- 结构
- 模块化
设置
用法
- Docker服务器方法
- 服务器/客户端方法
- 本地方法
命令行的用法
- 模型参数
- 生成参数
- 值得注意的参数

方法

结构

该存储库实现了语音到语音的级联管道，该管道由以下部分组成：

语音活动检测（VAD）
对文字的讲话（STT）
语言模型（LM）
语音文字（TTS）

模块化

该管道提供了一种完全开放的模块化方法，重点是通过拥抱面轮上的变形金刚库可用的模型。该代码设计用于易于修改，我们已经支持特定于设备的和外部库的实现：

vad

Silero VAD V5

stt

通过变形金刚在拥抱面枢纽上的任何耳语模型检查站？
闪电耳语MLX
Paraformer -funasr

LLM

通过变形金刚在拥抱面中心上有任何指示跟随模型吗？
MLX-LM
Openai API

TTS

parler-tts？
梅洛特
查特

设置

克隆存储库：

git clone https://github.com/huggingface/speech-to-speech.git
cd speech-to-speech

使用UV安装所需的依赖项：

uv pip install -r requirements.txt

对于Mac用户，请改用requirements_mac.txt文件：

uv pip install -r requirements_mac.txt

如果要使用Melo TTS，也需要运行：

python -m unidic download

用法

管道可以通过两种方式运行：

服务器/客户端方法：在服务器上运行的模型，并且从客户端流出了音频输入/输出。
本地方法：在本地运行。

服务器/客户端方法

在服务器上运行管道：

python s2s_pipeline.py --recv_host 0.0.0.0 --send_host 0.0.0.0

在本地运行客户端以处理麦克风输入并接收生成的音频：
```
python listen_and_play.py --host < IP address of your server >
```

本地方法（MAC）

对于Mac上的最佳设置：

python s2s_pipeline.py --local_mac_optimal_settings

此设置：

添加--device mps将MPS用于所有型号。
- 将Lightningwhispermlx设置为STT
- 为语言模型设置MLX LM
- 将Melotts设置为TTS

Docker服务器

安装NVIDIA容器工具包

https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html

启动Docker容器

docker compose up

多语言支持

该管道目前支持英语，法语，西班牙语，中文，日语和韩语。
考虑了两种用例：

单语言对话：使用--language标志来执行语言设置，指定目标语言代码（默认为'en'）。
语言切换：设置--language为“自动”。在这种情况下，Whisper检测到每个口语提示的语言，LLM的提示是“ Please reply to my message in ... ”，以确保响应使用被检测到的语言。

请注意，您必须使用与目标语言兼容的STT和LLM检查点。对于STT部分，Parler-TTS尚未多语言（尽管该功能即将推出！？）。同时，您应该使用MELO（支持英语，法语，西班牙语，中文，日语和韩语）或CHAT-TTS。

使用服务器版本：

用于自动语言检测：

python s2s_pipeline.py 
    --stt_model_name large-v3 
    --language auto 
    --mlx_lm_model_name mlx-community/Meta-Llama-3.1-8B-Instruct

或尤其是一种语言，在此示例中中文

python s2s_pipeline.py 
    --stt_model_name large-v3 
    --language zh 
    --mlx_lm_model_name mlx-community/Meta-Llama-3.1-8B-Instruct

本地MAC设置

用于自动语言检测：

python s2s_pipeline.py 
    --local_mac_optimal_settings 
    --device mps 
    --stt_model_name large-v3 
    --language auto 
    --mlx_lm_model_name mlx-community/Meta-Llama-3.1-8B-Instruct-4bit

或尤其是一种语言，在此示例中中文

python s2s_pipeline.py 
    --local_mac_optimal_settings 
    --device mps 
    --stt_model_name large-v3 
    --language zh 
    --mlx_lm_model_name mlx-community/Meta-Llama-3.1-8B-Instruct-4bit

命令行的用法

注意：所有CLI参数的参考可以直接在参数类中或通过运行python s2s_pipeline.py -h找到。

模块级参数

请参阅Modulearguments类。允许设置：

一个常见的--device （如果希望每个零件在同一设备上运行）
--mode local或server
选定的STT实现
选定的LM实施
选择TTS实施
记录级别

VAD参数

请参阅vadhandlerarguments类。尤其：

--thresh ：触发语音活动检测的阈值值。
--min_speech_ms ：被视为语音的检测到的语音活动的最小持续时间。
--min_silence_ms ：静音间隔的最小长度，用于分割语音，平衡句子切割和减少延迟。

STT，LM和TTS参数

对于文本，语言模型和语音文本的每个实现， model_name ， torch_dtype和device都会暴露出来。用相应的前缀（例如stt ， lm或tts指定目标管道部分，检查实现的参数类以获取更多详细信息）。

例如：

--lm_model_name google/gemma-2b-it

生成参数

可以使用零件的前缀 + _gen_ ，例如， --stt_gen_max_new_tokens 128设置模型生成方法的其他生成参数。如果尚未公开，可以将这些参数添加到管道部分的参数类中。

引用

Silero VAD

 @misc { Silero VAD,
  author = { Silero Team } ,
  title = { Silero VAD: pre-trained enterprise-grade Voice Activity Detector (VAD), Number Detector and Language Classifier } ,
  year = { 2021 } ,
  publisher = { GitHub } ,
  journal = { GitHub repository } ,
  howpublished = { url{https://github.com/snakers4/silero-vad} } ,
  commit = { insert_some_commit_here } ,
  email = { hello @ silero.ai }
}

扭曲

 @misc { gandhi2023distilwhisper ,
      title = { Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling } ,
      author = { Sanchit Gandhi and Patrick von Platen and Alexander M. Rush } ,
      year = { 2023 } ,
      eprint = { 2311.00430 } ,
      archivePrefix = { arXiv } ,
      primaryClass = { cs.CL }
}

Parler-tts

 @misc { lacombe-etal-2024-parler-tts ,
  author = { Yoach Lacombe and Vaibhav Srivastav and Sanchit Gandhi } ,
  title = { Parler-TTS } ,
  year = { 2024 } ,
  publisher = { GitHub } ,
  journal = { GitHub repository } ,
  howpublished = { url{https://github.com/huggingface/parler-tts} }
}