Python Hindi Tts
Es handelt sich um ein in Python implementiertesokatenanter Text-zu-Sprach-System.
Wir haben dieses Projekt im Oktober 2021 als Kursarbeitsprojekt für natürliche Sprachverarbeitung gestartet.
Ein konkleingenommenes Text-zu-Sprach-System erstellt eine Audio-Darstellung von Text, indem eine Reihe kleiner Audio-Dateien zusammengefügt werden, um die gesamte Ausgabe zu bilden.
Es gibt drei Schritte, darunter:
- Text-zu-Wort , wobei der Roheingabetxt in eine Liste von Wörtern tokenisiert wird. Dies umfasst auch im Allgemeinen auch die Umwandlung numerischer Ziffern in ihre Wortäquivalente (z. B. "5" in "fünf").
- Wörter zu Phonemen , bei denen das Array von Wörtern in Phoneme umgewandelt wird. Phoneme sind die individuellen Klänge in einer Sprache. Da Hindi ein sehr großes phonetisches Genre hat, kann die hindi -alphabetische Aussprache die Aussprache des gesamten Wortes ändern. Das System hat die phonetischen Hindi -Sounds bereits ihren Alphabeten abgebildet. Wenn das Alphabet erkannt wird, kann das System nur seine Audio -Datei aufnehmen und seine Nummer zurückgeben. Die Ausgabe ist eine Liste von Zahlen, die jeweils einem der 44 Hindi -Phoneme entsprechen.
- Phonemes-to-Sounds , wobei jedes Phonem mit einer Audiodatei gepaart wird. Dies ist der Punkt, an dem das tatsächliche Audio zusammengenäht wird. Es wäre auch in diesem Schritt, dass die richtige Stimme für das Audio ausgewählt wird, vorausgesetzt, mehrere Stimmen werden unterstützt.
Beziehen Sie sich auf Synthme, wenn Sie die englische Implementierung derselben haben möchten. Es war eine wirklich inspirierende und hilfreiche Ressource für uns.
Zukünftige Arbeit
Im Moment hat das System nur eine Stimme, das gehört mir und meinem Projekt Buddy @sarthaksavasil. Wir würden gerne noch ein paar Stimmen hinzufügen. Auch die Phonem -Datenbank ist auf nur 44 Audiodateien (zum Zeitpunkt, an dem ich diese schreibe) beschränkt, die alle wichtigsten und häufig verwendeten Hindi -Alphabete abdecken. Wir müssen also eine größere phonetische Sprachdatenbank erstellen.
Tragen Sie dazu bei, wenn Sie können. Es wird uns wirklich helfen und dieses Projekt wachsen lassen.
Abhängigkeiten
Dieses Projekt stützt sich auf
- Python 3x.
- Re (zur Tokenisierung)
- Wave und OS (zum Stechen der Audiodateien)
Installation
Befolgen Sie die folgenden Schritte, um den Sprachsynthesizer auszuprobieren.
- Stellen Sie sicher, dass alle Abhängigkeiten installiert sind.
- Öffnen Sie ein Terminal und navigieren Sie zum geklonten Verzeichnis.
- Ausführen:
pip install -r requirements.txt - Führen Sie den Befehl aus
**python3 SpeechSynthesis.py** - Sie werden aufgefordert, eine Nachricht einzugeben. Geben Sie ein, was das System für Sie aussagt!
- Das Programm generiert die Ausgabe als .WAV -Datei und das Ende. Open Output.wav, um das Ergebnis zu hören.