Code pour la compétition Kaggle https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge
Ce script atteint 0,057 sur LB.
Tout d'abord, installez les bibliothèques requises:
pip install nltk keras tqdm scikit-learn
Télécharger des intégres. J'ai utilisé FastText Crawl-300D-2M.Vec. Il peut être trouvé ici: https://github.com/facebookresearch/fasttext/blob/master/docs/english-vectors.md
Téléchargez les données du concours. Les liens sont ici: https://www.kaggle.com/c/jigsaw-toxic-omment-classification-challenge/data
N'oubliez pas d'extraire des fichiers des archives
Ensuite, courez
python fit_predict.py train.csv test.csv crawl-300d-2M.vec
Vous aurez besoin de temps pour former un modèle. Il faut ~ 3-4 heures sur GTX 1080 Ti. Dans l'arrivée, il y aura un fichier toxic_results / soumettre que vous pourrez soumettre sur Kaggle.