Код для конкуренции Kaggle https://www.kaggle.com/c/jigsaw-toxic-comment-classiation-challenge
Этот сценарий достигает 0,057 на LB.
Во -первых, установить необходимые библиотеки:
pip install nltk keras tqdm scikit-learn
Скачать Entgeddings. Я использовал Fasttext Crawl-300D-2M.VEC. Его можно найти здесь: https://github.com/facebookresearch/fastext/blob/master/docs/english-vectors.md
Загрузить данные конкурса. Ссылки здесь: https://www.kaggle.com/c/jigsaw-toxic-comment-classiation-challenge/data
Не забудьте извлечь файлы из архива
Далее беги
python fit_predict.py train.csv test.csv crawl-300d-2M.vec
Вам понадобится время, чтобы тренировать модель. Это занимает ~ 3-4 часа на GTX 1080 Ti. В конце концов будет файл toxic_results/отправить, которую вы сможете отправить на Kaggle.