Voz para discurso
A voz para a fala é um serviço do lado do cliente no navegador que converte a voz de um usuário em discurso sintetizado ao vivo por reconhecimento de fala, com centenas de vozes, texto para fala (TTS), translação automática de idiomas e suporte ao soquete.
Navegadores suportados conhecidos: Chrome, Edge, Safari
Visite https://shadowforests.github.io/voiceTospeech/ para usar a voz para a fala.
Características
- Reconhecimento de fala ao vivo via API de fala da web (apenas no Chrome).
- Baixa latência voz a fala usando resultados intermediários de reconhecimento de fala.
- Entrada alternativa de texto para fala para controle fino da saída.
- Tradução automática do idioma de voz de entrada para a linguagem de fala de saída.
- Grande seleção de idiomas e dialetos para reconhecimento de fala e vozes.
- Inclui suporte para vozes no seu computador e incorporado ao seu navegador.
- Personalize dispositivos de entrada e saída de áudio.
- Personalize o volume de saída, bem como a inclinação e a taxa de vozes selecionadas.
- Transcrição da saída de fala ao vivo com suporte de reprodução para todas as entradas de transcrição.
- A seleção de todo o texto na página selecionará apenas o texto da transcrição, permitindo a cola de cópia fácil.
- Diagnóstico ao vivo para saída, confiança e erros de reconhecimento de fala.
- Use um soquete da web para enviar texto de saída de fala diretamente para o seu PC.
- Use duas instâncias para permitir a tradução bidirecional entre você e outra pessoa.
Soquete da web
Você pode configurar um servidor de soquete da web no seu PC para enviar texto de saída de fala diretamente para o seu PC. Você pode encontrar um exemplo neste repositório que você pode executar usando o nó. Inicie o servidor executando socket/run_server.bat e a fala será enviada para socket/vts_speech.txt sempre que você usar o site de voz no discurso.
Tradução bidirecional
Este é um passo a passo para configurar um sistema personalizado permite a tradução bidirecional entre você e outra pessoa.
- Você precisará de dois navegadores do Chrome instalados separadamente. Eu recomendo o Chrome e o Chrome Beta. Isso ocorre porque um único navegador Chrome pode lidar apenas com uma entrada de voz por vez.
- Você também precisará de pelo menos dois roteadores de áudio da Cable VB. Você deve obter o driver de cabo VB padrão, bem como um driver adicional de Cable VB (doação). Isso é para que possamos rotear áudio através de canais separados para evitar colisões nos resultados do reconhecimento de fala. Após a configuração, você pode abrir as opções de som do seu computador e permitir ouvir os cabos de seus alto -falantes principais. Isso ajuda a ouvir o que está acontecendo durante a conversa.
- Abra o local da voz para os dois navegadores. Abra o menu Opções e ative a tradução nos dois navegadores.
- No Chrome, defina a entrada para o seu microfone pessoal e a saída na saída do cabo . Em seguida, defina seu idioma como a entrada e o idioma que a outra pessoa fala como saída.
- No seu programa de comunicação, defina seu microfone de entrada na saída do cabo . Agora, quando você fala, a síntese de fala será lançada para o seu programa de comunicação em vez da sua voz.
- Na versão beta do Chrome, defina a entrada na saída do cabo-A e a saída para o seu alto-falante padrão. Em seguida, defina o idioma que a outra pessoa fala como entrada e seu idioma como saída.
- Se o seu programa de comunicação suportar redirecionar a saída de áudio, defina a saída para a saída do cabo-A . Caso contrário, se você estiver usando o Windows, poderá acessar as opções de reprodução de som no aplicativo Configurações, clique em Propriedades do volume de aplicativos e do dispositivo e alterar o dispositivo de saída para o seu programa de comunicação. Isso pode exigir que você reinicie seu programa. Agora, quando a outra pessoa fala, sua voz será redirecionada através da voz para a fala e a saída como discurso traduzido através do seu orador.
- Agora, a voz da outra pessoa será traduzida automaticamente e falou com o seu alto -falante, e sua voz será traduzida automaticamente e falada através do seu programa de comunicação!
Licença
Este projeto está licenciado sob a licença do MIT - consulte o arquivo License.md para obter detalhes