toxic
1.0.0
رمز للمنافسة kaggle https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge
يحقق هذا البرنامج النصي 0.057 على LB.
أولاً ، تثبيت المكتبات المطلوبة:
pip install nltk keras tqdm scikit-learn
تنزيل التضمينات. لقد استخدمت FastText Crawl-300d-2M.Vec. يمكن العثور عليها هنا: https://github.com/facebookresearch/fasttext/blob/master/docs/english-vectors.md
تنزيل بيانات المسابقة. الروابط هنا: https://www.kaggle.com/c/jigsaw-toxic-comment-comment-challenge/data
لا تنسى استخراج الملفات من المحفوظات
بعد ذلك ، قم بالتشغيل
python fit_predict.py train.csv test.csv crawl-300d-2M.vec
ستحتاج إلى بعض الوقت لتدريب نموذج. يستغرق ~ 3-4 ساعات على GTX 1080 TI. في النهاية ، سيكون هناك ملف toxic_results/إرسال يمكنك تقديمه على kaggle.