Ce référentiel abrite ma solution au défi de normalisation du texte de Google - la langue anglaise. La majeure partie de la magie se produit dans le répertoire du convertisseur, qui est responsable des conversions réelles des jetons d'entrée aux jetons de sortie. Parallèlement au code, un article écrit sur ma solution. Le résumé de cet article est le suivant:
Cet article propose une méthode de résolution, ainsi qu'une solution à, un problème de normalisation de texte vocal, qui se concentre sur la conversion du texte à partir d'expressions écrites en formes parlées. La méthode analyse les jetons d'entrée via un modèle d'arbre de décision boosté par le gradient, qui classe le jeton comme l'un des 16 types de jetons différents. Le jeton est ensuite converti sur la base du type de jeton prévu, résultant en une sortie normalisée de la forme parlée. En entrant dans un concours de normalisation de texte à dispection connexe, la solution a atteint une précision de 99,590% , plaçant 12e des 260 équipes, ou dans les 5% supérieurs de toutes les soumissions.
Afin d'exécuter l'un des fichiers Python, le dossier data/raw doit contenir les données de formation et de test brutes de la concurrence elle-même. En raison des termes et conditions de la concurrence, ces données ne peuvent pas être partagées sur ce référentiel.
Ce référentiel agit comme une archive et n'est pas destiné à être mis à jour.
Je ne prends pas de contributions pour ce référentiel, car elle est conçue comme une archive.
Ce projet est autorisé en vertu de la licence MIT - voir le fichier Licence.md pour plus de détails.