Este repositório abriga minha solução para o desafio de normalização de texto do Google - idioma inglês. A maior parte da mágica acontece no diretório do conversor, responsável pelas conversões reais, desde os tokens de entrada em saída. Juntamente com o código, há um artigo escrito sobre minha solução. O resumo para este artigo é o seguinte:
Este artigo propõe um método para resolver, bem como uma solução para um problema de normalização de texto em fala, que se concentra na conversão de texto de expressões escritas em formas faladas. O método analisa os tokens de entrada por meio de um modelo de árvore de decisão aumentada de gradiente, que classifica o token como um dos 16 tipos diferentes de tokens. O token é então convertido com base no tipo de token previsto, resultando em uma saída normalizada da forma falada. Ao participar de uma competição de normalização de texto em fala relacionada, a solução alcançou uma precisão de 99,590% , colocando a 12ª das 260 equipes, ou dentro dos 5% principais de todas as submissões.
Para executar qualquer um dos arquivos Python, a pasta data/raw deve conter os dados brutos de treinamento e teste da própria concorrência. Devido aos termos e condições da concorrência, esses dados não podem ser compartilhados neste repositório.
Este repositório atua como um arquivo e não se destina a ser atualizado.
Não estou tomando contribuições para este repositório, pois foi projetado como um arquivo.
Este projeto está licenciado sob a licença do MIT - consulte o arquivo License.md para obter detalhes.