Download speech to speech - download de código -fonte speech to speech

speech to speech

Outro código-fonte

1.0.0

Baixar

Discurso para a fala: um esforço para um GPT4-O de código aberto e modular

ÍNDICE RÁPIDO

Abordagem
- Estrutura
- Modularidade
Configurar
Uso
- Abordagem do servidor Docker
- Abordagem de servidor/cliente
- Abordagem local
Uso da linha de comando
- Parâmetros do modelo
- Parâmetros de geração
- Parâmetros notáveis

Abordagem

Estrutura

Este repositório implementa um oleoduto em cascata de fala a fala que consiste nas seguintes partes:

Detecção de atividades de voz (VAD)
Discurso para texto (STT)
Modelo de idioma (LM)
Texto para fala (TTS)

Modularidade

O oleoduto fornece uma abordagem totalmente aberta e modular, com foco na alavancagem dos modelos disponíveis na Biblioteca Transformers no hub de rosto abraçados. O código foi projetado para facilitar a modificação e já suportamos implementações de bibliotecas específicas e externas de dispositivos:

Vad

Silero Vad v5

STT

Algum ponto de verificação do modelo de sussurro no hub de face Hugging através de Transformers?, Incluindo Whisper-Large-V3 e Distil-Large-V3
Lightning Whisper MLX
Paraformador - Fanasr

Llm

Algum modelo de acompanhamento de instruções no hub de face abraçador via Transformers?
MLX-LM
API OPENAI

TTS

Parler-tts?
Melotts
Chattts

Configurar

Clone o repositório:

git clone https://github.com/huggingface/speech-to-speech.git
cd speech-to-speech

Instale as dependências necessárias usando UV:

uv pip install -r requirements.txt

Para usuários de Mac, use o arquivo requirements_mac.txt :

uv pip install -r requirements_mac.txt

Se você quiser usar o Melo TTS, também precisa executar:

python -m unidic download

Uso

O oleoduto pode ser executado de duas maneiras:

Abordagem do servidor/cliente : os modelos são executados em um servidor e a entrada/saída de áudio são transmitidas por um cliente.
Abordagem local : funciona localmente.

Configuração recomendada

Abordagem de servidor/cliente

Execute o pipeline no servidor:

python s2s_pipeline.py --recv_host 0.0.0.0 --send_host 0.0.0.0

Execute o cliente localmente para lidar com a entrada de microfone e receber áudio gerado:
```
python listen_and_play.py --host < IP address of your server >
```

Abordagem local (Mac)

Para configurações ideais no Mac:

python s2s_pipeline.py --local_mac_optimal_settings

Esta configuração:

Adiciona --device mps para usar MPS para todos os modelos.
- Define LightningningWhisperMlx para STT
- Define MLX LM para Modelo de Linguagem
- Define Melotts para TTS

Docker Server

Instale o NVIDIA Container Toolkit

https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html

Inicie o contêiner do Docker

docker compose up

Uso recomendado com CUDA

Aproveite a compilação da tocha para sussurros e parler-tts. O uso do Parler-TTS permite o streaming de saída de áudio, reduzindo a latência do Overeall :

python s2s_pipeline.py 
	--lm_model_name microsoft/Phi-3-mini-4k-instruct 
	--stt_compile_mode reduce-overhead 
	--tts_compile_mode default 
  --recv_host 0.0.0.0 
	--send_host 0.0.0.0

No momento, os modos que capturam gráficos CUDA não são compatíveis com o streaming de parler-TTS ( reduce-overhead , max-autotune ).

Suporte de vários idiomas

Atualmente, o oleoduto suporta inglês, francês, espanhol, chinês, japonês e coreano.
Dois casos de uso são considerados:

Conversação de língua única : aplique a configuração de idiomas usando o sinalizador --language , especificando o código do idioma de destino (o padrão é 'EN').
Comutação de idiomas : set --language para 'Auto'. Nesse caso, o Whisper detecta o idioma para cada prompt falado, e o LLM é solicitado com " Please reply to my message in ... " para garantir que a resposta esteja no idioma detectado.

Observe que você deve usar pontos de verificação STT e LLM compatíveis com o (s) idioma (s) de destino. Para a parte STT, o Parler-TTS ainda não é multilíngue (embora esse recurso esteja chegando em breve!?). Enquanto isso, você deve usar Melo (que suporta inglês, francês, espanhol, chinês, japonês e coreano) ou bate-papo.

Com a versão do servidor:

Para detecção automática de linguagem:

python s2s_pipeline.py 
    --stt_model_name large-v3 
    --language auto 
    --mlx_lm_model_name mlx-community/Meta-Llama-3.1-8B-Instruct

Ou para um idioma em particular, chinês neste exemplo

python s2s_pipeline.py 
    --stt_model_name large-v3 
    --language zh 
    --mlx_lm_model_name mlx-community/Meta-Llama-3.1-8B-Instruct

Configuração local do MAC

Para detecção automática de linguagem:

python s2s_pipeline.py 
    --local_mac_optimal_settings 
    --device mps 
    --stt_model_name large-v3 
    --language auto 
    --mlx_lm_model_name mlx-community/Meta-Llama-3.1-8B-Instruct-4bit

Ou para um idioma em particular, chinês neste exemplo

python s2s_pipeline.py 
    --local_mac_optimal_settings 
    --device mps 
    --stt_model_name large-v3 
    --language zh 
    --mlx_lm_model_name mlx-community/Meta-Llama-3.1-8B-Instruct-4bit

Uso da linha de comando

Nota: As referências para todos os argumentos da CLI podem ser encontradas diretamente nas classes de argumentos ou executando python s2s_pipeline.py -h .

Parâmetros de nível de módulo

Consulte Classe de Modulearments. Permite definir:

um com comum --device (se alguém deseja que cada parte seja executada no mesmo dispositivo)
--mode local ou server
Implementação de STT escolhida
Implementação de LM escolhida
escolheu a implementação do TTS
nível de log

Parâmetros VAD

Veja a classe VadHandlerRarguments. Notavelmente:

--thresh : Valor limite para acionar a detecção de atividades de voz.
--min_speech_ms : duração mínima da atividade de voz detectada a ser considerada fala.
--min_silence_ms : Comprimento mínimo de intervalos de silêncio para segmentar a fala, equilibrando o corte das frases e a redução de latência.

Parâmetros STT, LM e TTS

model_name , torch_dtype e device são expostos a cada implementação do discurso em texto, modelo de idioma e texto para a fala. Especifique a parte do pipeline direcionada com o prefixo correspondente (por exemplo, stt , lm ou tts , verifique as classes de argumentos das implementações para obter mais detalhes).

Por exemplo:

--lm_model_name google/gemma-2b-it

Parâmetros de geração

Outros parâmetros de geração do método de geração do modelo podem ser definidos usando o prefixo da peça + _gen_ , por exemplo, --stt_gen_max_new_tokens 128 . Esses parâmetros podem ser adicionados à classe de argumentos da parte do pipeline, se ainda não estiver exposta.

Citações

Silero Vad

 @misc { Silero VAD,
  author = { Silero Team } ,
  title = { Silero VAD: pre-trained enterprise-grade Voice Activity Detector (VAD), Number Detector and Language Classifier } ,
  year = { 2021 } ,
  publisher = { GitHub } ,
  journal = { GitHub repository } ,
  howpublished = { url{https://github.com/snakers4/silero-vad} } ,
  commit = { insert_some_commit_here } ,
  email = { hello @ silero.ai }
}

Whisper destil

 @misc { gandhi2023distilwhisper ,
      title = { Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling } ,
      author = { Sanchit Gandhi and Patrick von Platen and Alexander M. Rush } ,
      year = { 2023 } ,
      eprint = { 2311.00430 } ,
      archivePrefix = { arXiv } ,
      primaryClass = { cs.CL }
}

Parler-tts

 @misc { lacombe-etal-2024-parler-tts ,
  author = { Yoach Lacombe and Vaibhav Srivastav and Sanchit Gandhi } ,
  title = { Parler-TTS } ,
  year = { 2024 } ,
  publisher = { GitHub } ,
  journal = { GitHub repository } ,
  howpublished = { url{https://github.com/huggingface/parler-tts} }
}

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-02-25
tamanho 110.98KB
Vindo de Github

Aplicativos Relacionados

How to download hydrax abyss.to

2024-11-11
Retornar à Terra

2023-08-09
como escapar

2023-06-28
deslize para desbloquear

2023-06-19
Morto para os direitos

2022-08-27
Suba às ruínas

2022-08-23

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Outro código-fonte

1.0.0
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Outro código-fonte

1.0.0

Informações Relacionadas Todos