Código para la competencia de Kaggle https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge
Este script logra 0.057 en LB.
Primero, instale bibliotecas requeridas:
pip install nltk keras tqdm scikit-learn
Descargar incrustaciones. Usé FastText Crawl-300D-2M.Vec. Se puede encontrar aquí: https://github.com/facebookresearch/fasttext/blob/master/docs/english-vectors.md
Descargar los datos de la competencia. Los enlaces están aquí: https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data
No olvide extraer archivos de los archivos
A continuación, corre
python fit_predict.py train.csv test.csv crawl-300d-2M.vec
Necesitará algo de tiempo para entrenar un modelo. Se necesitan ~ 3-4 horas en GTX 1080 Ti. En el final, habrá archivos toxic_results/envío que podrá enviar en Kaggle.