Voix à la parole
La voix à la parole est un service côté client de navigateur qui convertit la voix d'un utilisateur en discours synthétisé en direct via la reconnaissance de la parole, avec des centaines de voix, du texte en parole (TTS), une auto-traduction en langue et un support de socket.
Browsers pris en charge connus: chrome, bord, safari
Visitez https://shadowforests.github.io/voicetospeech/ pour utiliser la voix pour la parole.
Caractéristiques
- Reconnaissance de la parole en direct via l'API de discours Web (uniquement sur Chrome).
- Vocation à la voix à faible latence en utilisant des résultats de reconnaissance vocale provisoire.
- Entrée de texte vocal alternative pour un contrôle fin de la sortie.
- Traduction automatique du langage vocal d'entrée au langage de la parole de sortie.
- Grande sélection de langues et de dialectes pour la reconnaissance vocale et les voix.
- Comprend la prise en charge des voix sur votre ordinateur et intégrée à votre navigateur.
- Personnalisez les périphériques d'entrée et de sortie audio.
- Personnalisez le volume de sortie, ainsi que la hauteur et le taux pour certaines voix.
- Transcription de sortie de la parole en direct avec la prise en charge de la lecture pour toutes les entrées de transcription.
- La sélection de tout le texte sur la page ne sélectionnera que le texte de la transcription, permettant une copie-coller facile.
- Diagnostics en direct pour la sortie de la reconnaissance vocale, la confiance et les erreurs.
- Utilisez une prise Web pour envoyer un texte de sortie de la parole directement sur votre PC.
- Utilisez deux instances pour permettre une traduction bidirectionnelle entre vous et quelqu'un d'autre.
Douille
Vous pouvez configurer un serveur de socket Web sur votre PC pour envoyer le texte de sortie de la parole directement sur votre PC. Vous pouvez trouver un exemple dans ce référentiel que vous pouvez exécuter à l'aide de nœud. Démarrez le serveur en exécutant socket/run_server.bat et le discours sera envoyé dans socket/vts_speech.txt chaque fois que vous utilisez le site de la voix.
Traduction bidirectionnelle
Il s'agit d'une procédure pas à pas pour configurer un système personnalisé permet une traduction bidirectionnelle entre vous et quelqu'un d'autre.
- Vous aurez besoin de deux navigateurs chromés installés séparément. Je recommande Chrome et Chrome Beta. En effet, un seul navigateur Chrome ne peut gérer qu'une seule entrée vocale à la fois.
- Vous aurez également besoin d'au moins deux routeurs audio de VB-Cable. Vous devriez obtenir le pilote VB par défaut ainsi qu'un pilote de capable VB supplémentaire (donationware). C'est pour que nous puissions acheminer l'audio via des canaux séparés pour éviter la collision dans les résultats de la reconnaissance vocale. Après la configuration, vous pouvez ouvrir les options sonores de votre ordinateur et permettre d'écouter les câbles de vos haut-parleurs. Cela aide à entendre ce qui se passe pendant la conversation.
- Ouvrez la voix au site de la parole sur les deux navigateurs. Ouvrez le menu Options et activez la traduction dans les deux navigateurs.
- Dans Chrome, définissez l'entrée sur votre microphone personnel et la sortie sur la sortie du câble . Ensuite, définissez votre langue comme entrée et la langue dans laquelle la personne parle en tant que sortie.
- Dans votre programme de communication, définissez votre microphone d'entrée sur la sortie du câble . Maintenant, lorsque vous parlez, la synthèse de la parole sera publiée vers votre programme de communication au lieu de votre voix.
- Dans Chrome Beta, définissez l'entrée sur la sortie Cable-A et la sortie sur votre haut-parleur par défaut. Ensuite, définissez la langue dans laquelle l'autre personne parle comme entrée et votre langue comme sortie.
- Si votre programme de communication prend en charge la redirection de la sortie audio, définissez la sortie sur la sortie Cable-A . Sinon, si vous utilisez Windows, vous pouvez accéder aux options de lecture sonore dans l'application Paramètres, cliquez sur le volume de l'application et les propriétés de l'appareil et modifier le périphérique de sortie pour votre programme de communication. Cela peut vous obliger à redémarrer votre programme. Maintenant, lorsque l'autre personne parle, sa voix sera redirigée par la voix vers la parole et la sortie comme un discours traduit via votre haut-parleur.
- Maintenant, la voix de l'autre personne sera traduite automatique et parlée à votre haut-parleur, et votre voix sera traduite automatique et parlée grâce à votre programme de communication!
Licence
Ce projet est sous licence en vertu de la licence MIT - voir le fichier licence.md pour plus de détails