Download VoiceToSpeech - download de código fonte VoiceToSpeech

VoiceToSpeech

Código-Fonte de IA

1.0.0

Baixar

Voz para discurso

A voz para a fala é um serviço do lado do cliente no navegador que converte a voz de um usuário em discurso sintetizado ao vivo por reconhecimento de fala, com centenas de vozes, texto para fala (TTS), translação automática de idiomas e suporte ao soquete.

Navegadores suportados conhecidos: Chrome, Edge, Safari

Visite https://shadowforests.github.io/voiceTospeech/ para usar a voz para a fala.

Características

Reconhecimento de fala ao vivo via API de fala da web (apenas no Chrome).
Baixa latência voz a fala usando resultados intermediários de reconhecimento de fala.
Entrada alternativa de texto para fala para controle fino da saída.
Tradução automática do idioma de voz de entrada para a linguagem de fala de saída.
Grande seleção de idiomas e dialetos para reconhecimento de fala e vozes.
Inclui suporte para vozes no seu computador e incorporado ao seu navegador.
Personalize dispositivos de entrada e saída de áudio.
Personalize o volume de saída, bem como a inclinação e a taxa de vozes selecionadas.
Transcrição da saída de fala ao vivo com suporte de reprodução para todas as entradas de transcrição.
A seleção de todo o texto na página selecionará apenas o texto da transcrição, permitindo a cola de cópia fácil.
Diagnóstico ao vivo para saída, confiança e erros de reconhecimento de fala.
Use um soquete da web para enviar texto de saída de fala diretamente para o seu PC.
Use duas instâncias para permitir a tradução bidirecional entre você e outra pessoa.

Soquete da web

Você pode configurar um servidor de soquete da web no seu PC para enviar texto de saída de fala diretamente para o seu PC. Você pode encontrar um exemplo neste repositório que você pode executar usando o nó. Inicie o servidor executando socket/run_server.bat e a fala será enviada para socket/vts_speech.txt sempre que você usar o site de voz no discurso.

Tradução bidirecional

Este é um passo a passo para configurar um sistema personalizado permite a tradução bidirecional entre você e outra pessoa.

Você precisará de dois navegadores do Chrome instalados separadamente. Eu recomendo o Chrome e o Chrome Beta. Isso ocorre porque um único navegador Chrome pode lidar apenas com uma entrada de voz por vez.
Você também precisará de pelo menos dois roteadores de áudio da Cable VB. Você deve obter o driver de cabo VB padrão, bem como um driver adicional de Cable VB (doação). Isso é para que possamos rotear áudio através de canais separados para evitar colisões nos resultados do reconhecimento de fala. Após a configuração, você pode abrir as opções de som do seu computador e permitir ouvir os cabos de seus alto -falantes principais. Isso ajuda a ouvir o que está acontecendo durante a conversa.
Abra o local da voz para os dois navegadores. Abra o menu Opções e ative a tradução nos dois navegadores.
No Chrome, defina a entrada para o seu microfone pessoal e a saída na saída do cabo . Em seguida, defina seu idioma como a entrada e o idioma que a outra pessoa fala como saída.
No seu programa de comunicação, defina seu microfone de entrada na saída do cabo . Agora, quando você fala, a síntese de fala será lançada para o seu programa de comunicação em vez da sua voz.
Na versão beta do Chrome, defina a entrada na saída do cabo-A e a saída para o seu alto-falante padrão. Em seguida, defina o idioma que a outra pessoa fala como entrada e seu idioma como saída.
Se o seu programa de comunicação suportar redirecionar a saída de áudio, defina a saída para a saída do cabo-A . Caso contrário, se você estiver usando o Windows, poderá acessar as opções de reprodução de som no aplicativo Configurações, clique em Propriedades do volume de aplicativos e do dispositivo e alterar o dispositivo de saída para o seu programa de comunicação. Isso pode exigir que você reinicie seu programa. Agora, quando a outra pessoa fala, sua voz será redirecionada através da voz para a fala e a saída como discurso traduzido através do seu orador.
Agora, a voz da outra pessoa será traduzida automaticamente e falou com o seu alto -falante, e sua voz será traduzida automaticamente e falada através do seu programa de comunicação!