Descarga speech to speech - Descargar el código fuente speech to speech

speech to speech

Otro código fuente

1.0.0

Descargar

Discurso a discurso: un esfuerzo para un GPT4-O modular y de código abierto

Índice rápido

Acercarse
- Estructura
- Modularidad
Configuración
Uso
- Enfoque de servidor Docker
- Enfoque de servidor/cliente
- Enfoque local
Uso de la línea de comandos
- Parámetros del modelo
- Parámetros de generación
- Parámetros notables

Acercarse

Estructura

Este repositorio implementa una tubería en cascada de voz a voz que consiste en las siguientes partes:

Detección de actividad de voz (VAD)
Discurso a texto (STT)
Modelo de idioma (LM)
Texto al habla (TTS)

Modularidad

La tubería proporciona un enfoque completamente abierto y modular, con un enfoque en aprovechar los modelos disponibles a través de la biblioteca Transformers en el Hub de la cara abrazada. El código está diseñado para una fácil modificación, y ya admitemos implementaciones de biblioteca específicas y específicas del dispositivo:

Vad

Silero Vad V5

Stt

¿Algún punto de control de modelo Whisper en el centro de la cara abrazando a través de Transformers?, Incluyendo Whisper-Large-V3 y DISTIL-LARGE-V3
Lightning Whisper Mlx
Paraformador - Funasr

LLM

¿Algún modelo de seguimiento de instrucciones en el centro de la cara abrazada a través de Transformers?
mlx-lm
API OPERAI

TTS

Parler-TTS?
Melotts
Chattts

Configuración

Clon el repositorio:

git clone https://github.com/huggingface/speech-to-speech.git
cd speech-to-speech

Instale las dependencias requeridas usando UV:

uv pip install -r requirements.txt

Para los usuarios de Mac, use el archivo requirements_mac.txt en su lugar:

uv pip install -r requirements_mac.txt

Si quieres usar Melo TTS, también debes ejecutar:

python -m unidic download

Uso

La tubería se puede ejecutar de dos maneras:

Enfoque del servidor/cliente : los modelos se ejecutan en un servidor, y la entrada/salida de audio se transmiten desde un cliente.
Enfoque local : funciona localmente.

Configuración recomendada

Enfoque de servidor/cliente

Ejecute la tubería en el servidor:

python s2s_pipeline.py --recv_host 0.0.0.0 --send_host 0.0.0.0

Ejecute el cliente localmente para manejar la entrada de micrófono y recibir audio generado:
```
python listen_and_play.py --host < IP address of your server >
```

Enfoque local (Mac)

Para configuraciones óptimas en Mac:

python s2s_pipeline.py --local_mac_optimal_settings

Esta configuración:

Agrega --device mps para usar MP para todos los modelos.
- Establece LightningwhisperMlx para STT
- Establece MLX LM para el modelo de idioma
- Establece melotts para TTS

Servidor de acopolador

Instale el kit de herramientas de contenedor nvidia

https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html

Inicie el contenedor Docker

docker compose up

Uso recomendado con CUDA

Aproveche la compilación de la antorcha para Whisper y Parler-TTS. El uso de Parler-TTS permite la transmisión de salida de audio, sin embargo, reduce la latencia sobrealtada :

python s2s_pipeline.py 
	--lm_model_name microsoft/Phi-3-mini-4k-instruct 
	--stt_compile_mode reduce-overhead 
	--tts_compile_mode default 
  --recv_host 0.0.0.0 
	--send_host 0.0.0.0

Por el momento, los modos que capturan gráficos CUDA no son compatibles con la transmisión de parler-tts ( reduce-overhead , max-autotune ).

Soporte de varios idiomas

La tubería actualmente es compatible con inglés, francés, español, chino, japonés y coreano.
Se consideran dos casos de uso:

Conversación en lenguaje único : Haga cumplir la configuración del idioma utilizando el indicador --language , especificando el código de idioma de destino (el valor predeterminado es 'EN').
Conmutación de idiomas : Establecer --language a 'Auto'. En este caso, Whisper detecta el idioma para cada mensaje hablado, y se solicita al LLM con " Please reply to my message in ... " para asegurarse de que la respuesta esté en el lenguaje detectado.

Tenga en cuenta que debe usar puntos de control STT y LLM compatibles con los idiomas de destino. Para la parte STT, Parler-TTS aún no es multilingüe (¡aunque esa característica llegará pronto?). Mientras tanto, debe usar Melo (que admite inglés, francés, español, chino, japonés y coreano) o chat-tts.

Con la versión del servidor:

Para detección de lenguaje automático:

python s2s_pipeline.py 
    --stt_model_name large-v3 
    --language auto 
    --mlx_lm_model_name mlx-community/Meta-Llama-3.1-8B-Instruct

O para un idioma en particular, chino en este ejemplo

python s2s_pipeline.py 
    --stt_model_name large-v3 
    --language zh 
    --mlx_lm_model_name mlx-community/Meta-Llama-3.1-8B-Instruct

Configuración local de Mac

Para detección de lenguaje automático:

python s2s_pipeline.py 
    --local_mac_optimal_settings 
    --device mps 
    --stt_model_name large-v3 
    --language auto 
    --mlx_lm_model_name mlx-community/Meta-Llama-3.1-8B-Instruct-4bit

O para un idioma en particular, chino en este ejemplo

python s2s_pipeline.py 
    --local_mac_optimal_settings 
    --device mps 
    --stt_model_name large-v3 
    --language zh 
    --mlx_lm_model_name mlx-community/Meta-Llama-3.1-8B-Instruct-4bit

Uso de la línea de comandos

Nota: Referencias para todos los argumentos de CLI se pueden encontrar directamente en las clases de argumentos o ejecutando python s2s_pipeline.py -h .

Parámetros de nivel de módulo

Ver clase ModulearGuments. Permite establecer:

Un --device común (si uno quiere que cada parte se ejecute en el mismo dispositivo)
--mode local o server
Implementación STT elegida
Implementación de LM elegida
elegir la implementación de TTS
nivel de registro

Parámetros VAD

Ver Clase Vadhandlerarguments. Notablemente:

--thresh : valor umbral para activar la detección de actividad de voz.
--min_speech_ms : duración mínima de la actividad de voz detectada que se considerará el habla.
--min_silence_ms : la longitud mínima de los intervalos de silencio para segmentar el habla, equilibrar el corte de oraciones y la reducción de la latencia.

Parámetros STT, LM y TTS

model_name , torch_dtype y device están expuestos para cada implementación del discurso al texto, el modelo de idioma y el texto al habla. Especifique la parte de tubería específica con el prefijo correspondiente (por ejemplo, stt , lm o tts , verifique las clases de argumentos de las implementaciones para obtener más detalles).

Por ejemplo:

--lm_model_name google/gemma-2b-it

Parámetros de generación

Otros parámetros de generación del método de generación del modelo se pueden establecer utilizando el prefijo de la pieza + _gen_ , por ejemplo, --stt_gen_max_new_tokens 128 . Estos parámetros se pueden agregar a la clase de argumentos de la pieza de la tubería si ya no están expuestos.

Citas

Silero Vad

 @misc { Silero VAD,
  author = { Silero Team } ,
  title = { Silero VAD: pre-trained enterprise-grade Voice Activity Detector (VAD), Number Detector and Language Classifier } ,
  year = { 2021 } ,
  publisher = { GitHub } ,
  journal = { GitHub repository } ,
  howpublished = { url{https://github.com/snakers4/silero-vad} } ,
  commit = { insert_some_commit_here } ,
  email = { hello @ silero.ai }
}

Awhisper

 @misc { gandhi2023distilwhisper ,
      title = { Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling } ,
      author = { Sanchit Gandhi and Patrick von Platen and Alexander M. Rush } ,
      year = { 2023 } ,
      eprint = { 2311.00430 } ,
      archivePrefix = { arXiv } ,
      primaryClass = { cs.CL }
}

Parler-tts

 @misc { lacombe-etal-2024-parler-tts ,
  author = { Yoach Lacombe and Vaibhav Srivastav and Sanchit Gandhi } ,
  title = { Parler-TTS } ,
  year = { 2024 } ,
  publisher = { GitHub } ,
  journal = { GitHub repository } ,
  howpublished = { url{https://github.com/huggingface/parler-tts} }
}

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-02-25
tamaño 110.98KB
Proviene de Github

Aplicaciones relacionadas

How to download hydrax abyss.to

2024-11-11
Regreso a la Tierra

2023-08-09
como escapar

2023-06-28
deslizar para desbloquear

2023-06-19
Muerto a los derechos

2022-08-27
Ascenso a las ruinas

2022-08-23

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Otro código fuente

1.0.0
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Otro código fuente

1.0.0

Información relacionada Todo