toxic
1.0.0
Kaggle Competitionのコードhttps://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge
このスクリプトは、LBで0.057を達成します。
まず、必要なライブラリをインストールします。
pip install nltk keras tqdm scikit-learn
埋め込みをダウンロードします。 FastText Crawl-300D-2M.VECを使用しました。 https://github.com/facebookresearch/fasttext/blob/master/docs/english-vectors.md
コンペティションのデータをダウンロードします。リンクはここにあります:https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data
アーカイブからファイルを抽出することを忘れないでください
次に、実行します
python fit_predict.py train.csv test.csv crawl-300d-2M.vec
モデルをトレーニングするのに時間がかかります。 GTX 1080 Tiでは約3〜4時間かかります。フィニッシュでは、kaggleで送信できるファイルtoxic_results/送信があります。