Este repositorio alberga mi solución al desafío de normalización de texto de Google: idioma inglés. La mayor parte de la magia ocurre dentro del directorio convertidor, que es responsable de las conversiones reales de tokens de entrada a salida. Junto al código hay un artículo escrito sobre mi solución. El resumen de este documento es el siguiente:
Este documento propone un método para resolver, así como una solución a un problema de normalización de texto a voz, que se centra en convertir el texto de las expresiones escritas en formas habladas. El método analiza los tokens de entrada a través de un modelo de árbol de decisión de gradiente, que clasifica el token como uno de los 16 tokens diferentes de tokens. El token se convierte en función del tipo de token predicho, lo que resulta en una salida normalizada de la forma hablada. Al ingresar una competencia relacionada de normalización de texto a voz, la solución logró una precisión del 99.590% , colocando el 12º de los 260 equipos, o dentro del 5% superior de todas las presentaciones.
Para ejecutar cualquiera de los archivos de Python, la carpeta data/raw debe contener los datos de capacitación y prueba sin procesar de la competencia misma. Debido a los términos y condiciones de la competencia, estos datos no se pueden compartir en este repositorio.
Este repositorio actúa como un archivo, y no está destinado a actualizarse.
No estoy tomando contribuciones para este repositorio, ya que está diseñado como un archivo.
Este proyecto tiene licencia bajo la licencia MIT: consulte el archivo License.md para más detalles.