Python hindi tts
Il s'agit d'un système de texte à dispection concaténatif implémenté dans Python.
Nous avons commencé ce projet en octobre 2021 en tant que projet de cours de traitement du langage naturel .
Un système de texte vocale concaténatif crée une représentation audio du texte en collant ensemble un tas de petits fichiers audio pour former l'ensemble de la sortie.
Il y a trois étapes, notamment:
- Texte à mot , où le texte d'entrée brut est tokenisé en une liste de mots. Cela comprend également généralement la conversion des chiffres numériques en leurs équivalents de mots (Ex: transformer "5" en "cinq").
- Mots à phonèmes , où le tableau de mots est converti en phonèmes. Les phonèmes sont les sons individuels dans une langue. Comme l'hindi a un genre phonétique très vaste, la prononciation alphabétique hindi peut varier le changement de la prononciation de tout le mot. Système a déjà cartographié les sons phonétiques hindi à leurs alphabets, donc chaque fois que l'alphabet est détecté, le système se correspond simplement à son fichier audio et renvoie son numéro. La sortie est une liste de nombres qui correspondent à l'un des 44 phonèmes hindi.
- Phonèmes aux sons , où chaque phonème est associé à un fichier audio. C'est le point où l'audio réel est cousu ensemble. Ce serait également dans cette étape que la voix correcte pour l'audio est sélectionnée, en supposant que plusieurs voix sont prises en charge.
Faites référence à Synthme si vous souhaitez l'implémentation anglaise de la même chose. C'était une ressource vraiment inspirante et utile pour nous.
Travail futur
En ce moment, le système n'a qu'une seule voix, c'est à moi et à @sarthaksavasil de mon projet. Nous serions ravis d'y ajouter quelques voix supplémentaires. De plus, la base de données Phonème est limitée à seulement 44 fichiers audio (à l'époque j'écris ceci) couvrant tous les alphabets hindi majeurs et fréquemment utilisés. Nous devons donc construire une plus grande base de données vocale phonétique.
Contribuez-y si vous le pouvez. Cela nous aidera vraiment et fera grandir ce projet.
Dépendances
Ce projet repose sur
- Python 3x.
- re (pour la tokenisation)
- WAVE et OS (pour étouffer les fichiers audio)
Installation
Suivez les étapes ci-dessous pour essayer le synthétiseur de la parole.
- Assurez-vous que toutes les dépendances sont installées.
- Ouvrez un terminal et accédez au répertoire cloné.
- Exécuter:
pip install -r requirements.txt - Exécutez la commande
**python3 SpeechSynthesis.py** - Vous serez invité à saisir un message. Entrez ce que vous voulez que le système dise pour vous!
- Le programme générera la sortie en tant que fichier .wav et finra. Open Output.wav pour entendre le résultat.