Dieses Repository beherbergt meine Lösung für Googles Textnormalisierungsherausforderung - englische Sprache. Der größte Teil der Magie erfolgt im Konverterverzeichnis, das für die tatsächlichen Konvertierungen von Eingabe zu Ausgabe -Token verantwortlich ist. Neben dem Code befindet sich ein Papier in Bezug auf meine Lösung. Das Zusammenfassung für dieses Papier ist wie folgt:
Dieses Papier schlägt eine Methode zur Lösung sowie eine Lösung für ein Text-zu-Sprach-Normalisierungsproblem vor, das sich auf das Konvertieren von Text aus schriftlichen Ausdrücken in gesprochene Formen konzentriert. Die Methode analysiert Eingabe -Token durch ein Gradienten, das das Entscheidungsbaummodell verstärkt, das das Token als eine von 16 verschiedenen Arten von Token klassifiziert. Der Token wird dann basierend auf dem vorhergesagten Token -Typ konvertiert, was zu einer normalisierten Ausgabe der gesprochenen Form führt. Nach dem Eintritt in eine verwandte Normalisierungswettbewerbe von Text zu Sprache erreichte die Lösung eine Genauigkeit von 99,590% und belegte den 12. Platz der 260 Teams oder innerhalb der Top 5% aller Einreichungen.
Um eine der Python -Dateien auszuführen, muss der data/raw -Ordner das RAW -Training und die Testdaten aus dem Wettbewerb selbst enthalten. Aufgrund der Bedingungen des Wettbewerbs können diese Daten nicht in diesem Repository weitergegeben werden.
Dieses Repository fungiert als Archiv und soll nicht aktualisiert werden.
Ich nehme keine Beiträge für dieses Repository, da es als Archiv konzipiert ist.
Dieses Projekt ist unter der MIT -Lizenz lizenziert - finden Sie in der lizenz.md -Datei für Einzelheiten.