toxic
1.0.0
Kaggle競賽代碼
該腳本在LB上達到0.057。
首先,安裝所需庫:
pip install nltk keras tqdm scikit-learn
下載嵌入。我使用了FastText爬網-300D-2m.vec。可以在這裡找到:https://github.com/facebookresearch/fasttext/blob/master/docs/english-vectors.md
下載競賽的數據。鏈接在這裡:https://www.kaggle.com/c/jigsaw-toxic-comment-classification-classification-classification-challenge/data
不要忘記從檔案中提取文件
接下來,運行
python fit_predict.py train.csv test.csv crawl-300d-2M.vec
您將需要一些時間來培訓模型。 GTX 1080 Ti需要〜3-4小時。在完成時,將有File tocic_results/提交您可以在Kaggle上提交的文件。