Code für den Kaggle-Wettbewerb https://www.kaggle.com/c/jigsaw-toxic-coment-classification-chalenge
Dieses Skript erreicht 0,057 auf LB.
Installieren Sie zunächst die erforderlichen Bibliotheken:
pip install nltk keras tqdm scikit-learn
Download Einbettungen. Ich habe FastText Crawl-300D-2M.Vec verwendet. Es finden Sie hier: https://github.com/facebookresearch/fasttext/blob/master/docs/english-vectors.md
Laden Sie die Daten des Wettbewerbs herunter. Die Links sind da
Vergessen Sie nicht, Dateien aus Archiven zu extrahieren
Als nächstes rennen Sie
python fit_predict.py train.csv test.csv crawl-300d-2M.vec
Sie benötigen einige Zeit, um ein Modell zu trainieren. Es dauert ~ 3-4 Stunden für GTX 1080 Ti. Im Finish werden Datei toxic_results/reichen, die Sie auf Kaggle einreichen können.