toxic
1.0.0
Kaggle竞赛代码
该脚本在LB上达到0.057。
首先,安装所需库:
pip install nltk keras tqdm scikit-learn
下载嵌入。我使用了FastText爬网-300D-2m.vec。可以在这里找到:https://github.com/facebookresearch/fasttext/blob/master/docs/english-vectors.md
下载竞赛的数据。链接在这里:https://www.kaggle.com/c/jigsaw-toxic-comment-classification-classification-classification-challenge/data
不要忘记从档案中提取文件
接下来,运行
python fit_predict.py train.csv test.csv crawl-300d-2M.vec
您将需要一些时间来培训模型。 GTX 1080 Ti需要〜3-4小时。在完成时,将有File tocic_results/提交您可以在Kaggle上提交的文件。