kaggle CrowdFlower
1.0.0
Solusi tempat pertama untuk hasil pencarian kompetisi relevansi di kaggle
Model tunggal terbaik yang kami peroleh selama kompetisi adalah model XGBoost dengan pendorong linier skor LB publik 0,69322 dan skor LB pribadi 0,70768 . Pengajuan kemenangan terakhir kami adalah ansambel rata -rata dari 35 pengajuan LB publik terbaik. Pengajuan ini mencetak 0,70807 pada LB publik dan 0,72189 di Private LB.

Lihat ./Doc/Kaggle_CrowdFlower_ChenglongChen.pdf untuk dokumentasi.
./Data .python ./Code/Feat/run_all.py untuk menghasilkan fitur. Ini akan memakan waktu beberapa jam.python ./Code/Model/generate_best_single_model.py untuk menghasilkan pengiriman model tunggal terbaik. Dalam pengalaman kami, hanya perlu beberapa uji coba untuk menghasilkan model kinerja terbaik atau kinerja serupa. Lihat login pelatihan ./Output/Log/[Pre@solution]_[Feat@svd100_and_bow_Jun27]_[Model@reg_xgb_linear]_hyperopt.log MET_HEFEAT@SVD100_AND_BOW_JUN27#_$$Model@reg_xgb_linear $_hyperopt.log misalnya.python ./Code/Model/generate_model_library.py untuk menghasilkan perpustakaan model. Ini cukup memakan waktu. Tetapi Anda tidak perlu menunggu skrip ini selesai: Anda dapat menjalankan langkah berikutnya setelah Anda memiliki beberapa model yang dilatih.python ./Code/Model/generate_ensemble_submission.py untuk menghasilkan pengiriman melalui pemilihan ensemble../Output/Subm .