Kode Kompetisi Kaggle https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge
Skrip ini mencapai 0,057 di LB.
Pertama, instal perpustakaan yang diperlukan:
pip install nltk keras tqdm scikit-learn
Unduh Embeddings. Saya menggunakan FastText Crawl-300D-2m.vec. Dapat ditemukan di sini: https://github.com/faceBookresearch/fasttext/blob/master/docs/english-vectors.md
Unduh data kompetisi. Tautannya ada di sini: https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data
Jangan lupa untuk mengekstrak file dari arsip
Selanjutnya, jalankan
python fit_predict.py train.csv test.csv crawl-300d-2M.vec
Anda akan membutuhkan waktu untuk melatih model. Dibutuhkan ~ 3-4 jam di GTX 1080 Ti. Di finish, akan ada file TOXIC_RESULT/Kirim yang dapat Anda kirimkan di Kaggle.