Código para Kaggle Competition https://www.kaggle.com/c/jigsaw-toxic-comment-classification-callenge
Este script alcança 0,057 no LB.
Primeiro, instale as bibliotecas necessárias:
pip install nltk keras tqdm scikit-learn
Download de incorporação. Eu usei o FastText Crawl-300D-2M.vec. Pode ser encontrado aqui: https://github.com/facebookresearch/fasttext/blob/master/docs/english-vectors.md
Baixar dados do concurso. Os links estão aqui: https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data
Não se esqueça de extrair arquivos de arquivos
Em seguida, corra
python fit_predict.py train.csv test.csv crawl-300d-2M.vec
Você precisará de algum tempo para treinar um modelo. Demora ~ 3-4 horas no GTX 1080 Ti. No final, haverá arquivo toxic_results/envie o que você poderá enviar no Kaggle.