Publiquei um passeio de todos os vários recursos disponíveis no YouTube, clique aqui para visualizá -lo.
O principal objetivo do projeto é oferecer discurso ao texto para falar.
Agora ele tem uma GUI e armazena todas as configurações que você entra. Detalhes sensíveis, como as teclas da API, são armazenados no chaveiro do sistema.
Caso você queira usar a CLI, basta chamar o script da linha Comamnd com o argumento - -cli.
Oferece três serviços de reconhecimento de fala separados:
Além disso, traduz automaticamente a saída em um idioma da escolha do usuário (daqueles suportados pelo modelo multilíngue do Elevenlabs), se o usuário estiver falando um idioma diferente.
Cada provedor de reconhecimento de fala possui suporte a linguagem diferente; portanto, leia os detalhes.
A tradução é fornecida via DEEPL para idiomas suportados ou o Google Translate.
O texto reconhecido e traduzido é então enviado a um provedor TTS, dos quais dois são suportados:
elevenlabslib , um serviço TTS on -line de alta qualidade, mas pago que suporta vários idiomas.O projeto também permite sincronizar o texto detectado com uma fonte de texto OBS usando OBSWS-Python.
AVISO: O Python 3.11 ainda não é totalmente suportado por Pytorch (mas deve funcionar na construção noturna). Eu recomendo usar o Python 3.10.6
Antes de qualquer outra coisa: você precisará ter FFMPEG no seu $ PATH. Você pode seguir este tutorial se estiver no Windows
Além disso, se você estiver no Linux, precisará garantir que o Portaudio esteja instalado.
No Windows:
Clone the repo: git clone https://github.com/lugia19/Echo-XI.git
RUN RUN.BAT - Ele lidará com todas as etapas a seguir para você.
Em qualquer outro lugar:
Clone the repo: git clone https://github.com/lugia19/Echo-XI.git
Crie um Venv: python -m venv venv
Ative o Venv: venvScriptsactivate
Se você fez isso corretamente, deve haver (Venv) no início da linha de comando.
Instale os requisitos: pip install -r requirements.txt
Execute.
Se você deseja usar a voz em algo como Discord, use o Cable VB. No script, selecione seu microfone normal como entrada, VB-Cable input como saída e, em seguida, na VB-Cable output como entrada. Sim, é um pouco confuso.
Se você deseja usar os Vosk/RecasePunc e precisa de algo além dos modelos incluídos (para download), continue lendo.
Os modelos Vosk podem ser encontrados aqui. A mesma página também oferece alguns modelos RecasePunc. Para outros, você pode procurar no repo Recaseepunc.
Para o inglês, eu uso vosk-model-en-us-0.22 e vosk-recasepunc-en-0.22 . O RecasePunc é tecnicamente opcional ao usar o VOSK, mas altamente recomendado para melhorar a saída.
O script procura modelos nos modelos/vosk e nas pastas modelos/recaseepunc.
Uma estrutura de pastas típica se pareceria com isso (os modelos RecaseEpunc podem estar em sua própria pasta ou por si mesmos, dependendo da fonte da qual você os baixar. Ambos são suportados.):
-misc
-models
-vosk
-vosk-model-en-us-0.22
-vosk-model-it-0.22
-recasepunc
-vosk-recasepunc-en-0.22
it.22000
-speechRecognition
-ttsProviders
helper.py
speechToSpeech.py
Para todo o resto, basta executar o script e seguir as instruções.
Se você deseja usar a voz em algo como Discord, use o Cable VB. No script, selecione seu microfone normal como entrada, VB-Cable input como saída e, em seguida, na VB-Cable output como entrada. Sim, é um pouco confuso.