В этом репозитории находится мое решение задания Google по нормализации текста - английский язык. Большая часть магии происходит в каталоге преобразователей, который отвечает за фактические преобразования от входных входных токенов. Наряду с кодом написано документ о моем решении. Аннотация для этой статьи заключается в следующем:
В этой статье предлагается метод решения, а также решение проблемы нормализации текста в речь, которая фокусируется на преобразовании текста из письменных выражений в разговорные формы. Метод анализирует входные токены через модель дерева решений, повышенную градиент, которая классифицирует токен как один из 16 различных типов токенов. Затем токен конвертируется на основе прогнозируемого типа токена, что приводит к нормализованному выходу разговорной формы. После вступления в соревнование по нормализации текста в речь решение достигло точной точности 99,590% , поставив 12-е место из 260 команд или в пределах 5% всех представлений.
Чтобы запустить любой из файлов Python, папка data/raw должна содержать необработанные данные обучения и тестирования из самой конкуренции. Из -за условий конкуренции эти данные не могут быть переданы в этом репозитории.
Этот репозиторий действует как архив и не предназначен для обновления.
Я не принимаю вклад в этот репозиторий, так как он разработан как архив.
Этот проект лицензирован по лицензии MIT - для получения подробной информации см. В файле License.md.