toxic
1.0.0
รหัสสำหรับการแข่งขัน kaggle https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge
สคริปต์นี้ประสบความสำเร็จ 0.057 ใน LB
ขั้นแรกให้ติดตั้งไลบรารีที่ต้องการ:
pip install nltk keras tqdm scikit-learn
ดาวน์โหลด Embeddings ฉันใช้ FastText Crawl-300D-2M.VEC สามารถพบได้ที่นี่: https://github.com/facebookresearch/fasttext/blob/master/docs/english-vectors.md
ดาวน์โหลดข้อมูลของการแข่งขัน ลิงค์อยู่ที่นี่: https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data
อย่าลืมแยกไฟล์จากคลังเก็บ
ถัดไปเรียกใช้
python fit_predict.py train.csv test.csv crawl-300d-2M.vec
คุณจะต้องใช้เวลาในการฝึกอบรมแบบจำลอง ใช้เวลา ~ 3-4 ชั่วโมงใน GTX 1080 TI ในตอนท้ายจะมีไฟล์ toxic_results/ส่งซึ่งคุณจะสามารถส่งบน kaggle