kaggle HomeDepot Download - kaggle HomeDepot Source Code Download

kaggle HomeDepot

شفرة المصدر الأخرى

1.0.0

تنزيل

kaggle_homedepot

حل Turing Test for Home Depot Product Assoce Competition على kaggle

استسلام

استسلام	السيرة الذاتية RMSE	LB RMSE العامة	LB RMSE الخاص	موضع
نموذج واحد مبسط من Igor و Kostia (10 ميزات)	0.44792	0.45072	0.44949	31
أفضل نموذج واحد من Igor و Kostia	0.43787	0.44017	0.43895	11
أفضل نموذج واحد من Chenglong	0.43832	0.43996	0.43811	9
أفضل نموذج فرقة من Igor و Kostia	-	0.43819	0.43704	8
أفضل مجموعة فرقة من Chenglong	0.43550	0.43555	0.43368	6
أفضل نموذج الفرقة النهائي	-	0.43433	0.43271	3

مخطط انسيابي

الوثائق

انظر ./Doc/Kaggle_HomeDepot_Turing_Test.pdf للتوثيق.

تعليمات

جزء Chenglong

قبل المتابعة ، يجب على المرء أن يضع جميع البيانات من موقع المنافسة في مجلد ./Data .

لاحظ أنه في ما يلي ، يتم تنفيذ جميع الأوامر والبرامج النصية وتشغيلها في الدليل ./Code/Chenglong .

الخطوة 1. تثبيت التبعيات

1. بيثون

استخدمنا Python 3.5.1 والوحدات النمطية تأتي مع Anaconda 2.4.1 (64 بت). بالإضافة إلى ذلك ، استخدمنا أيضًا المكتبات والوحدات النمطية التالية:

Gensim 0.12.4
Hyperopt 0.0.3.dev
كيراس 0.3.2
Matplotlib-Venn 0.11.3
Python-Levenshtein 0.12.0
Regex 2.4.85
xgboost 0.4

2. ص

استخدمنا الحزم التالية المثبتة عبر install.packages() :

data.table
rtsne

3. آخر

استخدمنا حزم الطرف الثالث التالي:

RGF 1.2

الخطوة 2. إعداد البيانات الخارجية

1. نموذج Word2Vec المدرب مسبقًا

استخدمنا نماذج Word2Vec المدربة مسبقًا المدرجة في هذا Github Repo. بالتحديد:

أخبار جوجل
ويكيبيديا+Gigaword 5

استخدمنا قفاز-جينسيم لتحويل ناقلات القفازات إلى تنسيق Word2VEC لسهولة الاستخدام مع Gensim. بعد ذلك ، ضع جميع النماذج في الدليل المقابل (انظر config.py للحصول على التفاصيل).

2. آخر

استخدمنا أيضًا البيانات الخارجية التالية:

بيانات ملونة من منشور منتدى Kaggle هذا ، IE ، ./Data/dict/color_data.py في هذا الريبو.
قاموس تصحيح توضيح Google من هذا المنتدى Kaggle ، أي ، google_spelling_checker_dict.py في هذا الريبو.
قاموس استبدال الكلمات المحلي الصنع ، IE ، ./Data/dict/word_replacer.csv في هذا الريبو.
تم تنزيل بيانات NLTK Corpora و Taggers باستخدام nltk.download() ، على وجه التحديد: stopwords.zip ، wordnet.zip و maxent_treebank_pos_tagger.zip .

الخطوة 3. إنشاء الميزات

لإنشاء البيانات والميزات ، ينبغي للمرء تشغيل python run_data.py . على الرغم من أننا بذلنا قصارى جهدنا لجعل الأشياء بالتوازي والفعالة قدر الإمكان ، إلا أن هذا الجزء قد لا يزال يستغرق 1 ~ يومين حتى النهاية ، اعتمادًا على القوة الحسابية. لذا كن صبورًا :)

لاحظ أن معالجة النص المختلفة مفيدة لإدخال التنوع في الفرقة. في الواقع ، يتم إنشاء مجموعة ميزات واحدة (أي basic20160313 ) من حلنا النهائي قبل منشور الأخطاء المطبعية ، أي عدم استخدام قاموس تصحيح Google Spelling. يمكن إنشاء هذا الإصدار من الميزات عن طريق إيقاف تشغيل علامة GOOGLE_CORRECTING_QUERY في config.py .

بعد دمج الفريق مع Igor & Kostia ، قمنا بإعادة بناء كل شيء من نقطة الصفر ، واستخدمت معظم نماذجنا مجموعات فرعية مختلفة من ميزات Igor & Kostia. لهذا السبب ، يجب أن تحتاج أيضًا إلى إنشاء ميزاتها. نظرًا لأن ميزات Igor & Kostia موجودة في تنسيق DataFrame .csv ، فإننا نقدم محول turing_test_converter.py لتحويلها إلى التنسيق الذي نستخدمه ، أي ، .pkl .

الخطوة 4. إنشاء مصفوفة الميزة

في الخطوة 3 ، أنشأنا بضعة آلاف من الميزات. ومع ذلك ، سيتم استخدام جزء منهم فقط لبناء نموذجنا. على سبيل المثال ، لا نحتاج إلى تلك الميزات التي لها قوة تنبؤية قليلة جدًا (على سبيل المثال ، لها علاقة صغيرة جدًا بأهمية الهدف.) وبالتالي نحتاج إلى القيام ببعض اختيار الميزات.

في حلنا ، يتم تمكين اختيار الميزات من خلال الخطوتين التاليتين المتتاليتين.

1. اختيار ميزة REGEX نمط

يتم تنفيذ هذا النهج كـ get_feature_conf_*.py . تتمثل الفكرة العامة في تضمين أو استبعاد ميزات محددة عبر عمليات regex لأسماء الميزات. على سبيل المثال،

يمكن للمرء أن يحدد الميزات التي يريد تضمينها عبر متغير MANDATORY_FEATS ، على الرغم من ارتباطه بالهدف
يمكن للمرء أيضًا تحديد الميزات التي يرغب في استبعادها عبر متغير COMMENT_OUT_FEATS ، على الرغم من ارتباطه بالهدف (يكون MANDATORY_FEATS أولوية أعلى من COMMENT_OUT_FEATS .)

إخراج هذا هو ملف conf ميزة. على سبيل المثال ، بعد تشغيل الأمر التالي:
python get_feature_conf_nonlinear.py -d 10 -o feature_conf_nonlinear_201605010058.py
سنحصل على ميزة جديدة conf ./conf/feature_conf_nonlinear_201605010058.py

يمكن للمرء أن يلعب مع MANDATORY_FEATS و COMMENT_OUT_FEATS لإنشاء مجموعة فرعية مختلفة للميزات. لقد أدرجنا في ./conf بعض الميزات الأخرى من التقديم النهائي لدينا. من بينها ، feature_conf_nonlinear_201604210409.py يستخدم لبناء أفضل طراز واحد.

2. اختيار الميزة القائمة على الارتباط

مع الميزة التي تم إنشاؤها أعلاه ، يمكن للمرء أن يجمع بين جميع الميزات في مصفوفة ميزة عبر الأمر التالي:
python feature_combiner.py -l 1 -c feature_conf_nonlinear_201604210409 -n basic_nonlinear_201604210409 -t 0.05

يتم استخدام -t 0.05 أعلاه لتمكين اختيار ميزة قاعدة الارتباط. في هذه الحالة ، يعني ذلك: إسقاط أي ميزة لها ارتباط أقل من 0.05 مع أهمية الهدف.

TODO (Chenglong): استكشاف استراتيجيات اختيار الميزات الأخرى ، على سبيل المثال ، اختيار ميزة الأمام الجشع (FFS) واختيار الميزات المتخلفة الجشع (BFS).

الخطوة 5. توليد التقديم

1. مهام مختلفة

في حلنا ، تعد task مركبًا كائنًا feature محددة (على سبيل المثال ، basic_nonlinear_201604210409 ) learner معين ( XGBoostRegressor من xgboost). تعاريف task feature learner في task.py

خذ الأمر التالي على سبيل المثال.
python task.py -m single -f basic_nonlinear_201604210409 -l reg_xgb_tree -e 100

يقوم بتشغيل task مع feature basic_nonlinear_201604210409 learner reg_xgb_tree .
تم تحسين task باستخدام HyperOPT لـ 100 Evals للبحث في أفضل المعلمات learner reg_xgb_tree .
task تؤدي كل من السيرة الذاتية والتجديد النهائي. تحتوي السيرة الذاتية في هذه الحالة على غرضين: 1) توجيه Hyperopt للعثور على أفضل المعلمات ، و 2) إنشاء تنبؤات لكل طية سيرة ذاتية لمزيد من التراص (المستوى الثاني والثالث).
لجميع المتعلمين المتاحين ومساحة البحث المعلمة المقابلة ، يرجى الاطلاع على model_param_space.py .

خلال المسابقة ، قمنا بإدارة مهام مختلفة (أي الميزات المختلفة ومتعلمين مختلفين) لإنشاء مكتبة نموذجية من المستوى الأول. يرجى الاطلاع على ./Log/level1_models لجميع المهام التي قمنا بتضمينها في تقديمنا النهائي.

2. أفضل نموذج واحد

بعد إنشاء feature basic_nonlinear_201604210409 (انظر الخطوة 4 كيفية إنشاء هذا) ، قم بتشغيل الأمر التالي لإنشاء أفضل نموذج واحد:
python task.py -m single -f basic_nonlinear_201604210409 -l reg_xgb_tree_best_single_model -e 1

هذا يجب أن يولد تقديم مع CV RMSE المحلية حوالي 0.438 ~ 0.439.

3. أفضل نموذج الفرقة

بعد بناء بعض نماذج المستوى الأول المتنوع ، قم بتشغيل الأمر التالي لإنشاء أفضل نموذج لمجموعة:
python run_stacking_ridge.py -l 2 -d 0 -t 10 -c 1 -L reg_ensemble -o

هذا يجب أن يولد تقديم مع CV RMSE محلي حوالي 0.436.

جزء Igor & Kostia

قبل المتابعة ، يجب على المرء تحديد المسارات الصحيحة في ملف config_IgorKostia.py ووضع جميع البيانات من موقع المنافسة إلى مجلد محدد بواسطة متغير DATA_DIR . لإعادة إنتاج Ensemble_B من الخطوة IK5 ، يجب على المرء وضع مجموعات الميزات المستخدمة في مجلد محدد بواسطة FEATURESETS_DIR . لاحظ أنه في ما يلي ، يتم تنفيذ جميع الأوامر والبرامج النصية وتشغيلها في الدليل ./Code/Igor&Kostia .

الخطوة IK1. تثبيت التبعيات

1. بيثون

استخدمنا Python 2.7.11 على نظام Windows ووحداته يأتي مع Anaconda 2.4.0 (64 بت) ، بما في ذلك:

Scikit-Learn 0.17.1
Numpy 1.10.1
Pandas 0.17.0
إعادة 2.2.1
Matplotlib 1.4.3
سكيبي 0.16.0

بالإضافة إلى ذلك ، استخدمنا أيضًا المكتبات والوحدات النمطية التالية:

NLTK 3.1 (استخدم الأمر nltk.download() )
Gensim 0.12.2
xgboost 0.4

تم أيضًا إجراء بعض التحليل الوصفي ومزج النموذج النهائي في Excel 2007 و Excel 2010.

الخطوة IK2. نص معالجة مسبق

نقوم بجميع المعالجة المسبقة للنص قبل أي توليد ميزة وحفظ النتائج للملفات. لقد ساعدنا ذلك في توفير بضعة أيام الحوسبة لأن نفس خطوات المعالجة المسبقة ضرورية لإنشاء ميزات مختلفة.

تشغيل text_processing.py .
تشغيل text_processing_wo_google.py .

يتم تحميل بيانات الاستبدال اللازمة تلقائيًا من الملفات homedepot_functions.py و google_dict.py .

الخطوة IK3. ميزة توليد

نحتاج إلى تشغيل الملفات التالية:

feature_extraction1.py .
grams_and_terms_features.py .
dld_features.py .
word2vec.py .

لإنشاء ميزات دون استخدام قاموس Google ، نحتاج أيضًا إلى تشغيل:

feature_extraction1_wo_google.py .
word2vec_without_google_dict.py .

نتيجة لذلك ، سيكون لدينا عدد قليل من ملفات CSV مع الميزات اللازمة لبناء النماذج.

الخطوة IK4. توليد نموذج معياري مع ميزة ميزة

قم بتشغيل generate_feature_importances.py .

الخطوة IK5. إنشاء ملف التقديم

يتم إنشاء جزء واحد من مجموعة Ensemble_A من الكود التالي:

generate_models.py .
generate_model_wo_google.py .
generate_ensemble_output_from_models.py .

للحصول على الجزء الآخر Ensemble_B ، نحتاج إلى تشغيل هذه الملفات:

ensemble_script_imitation_version.py (إنه يستنسخ فقط اختيار الميزات العشوائية التي تم إنشاؤها من ensemble_script_random_version.py . أنت لا تحتاج إلى تشغيل ensemble_script_random_version.py مرة أخرى).
model_selecting.py .

يمكن إنشاء هذين الجزأين بالتوازي. بعد ذلك تم تقديم تقديمنا النهائي من Igor & Kostia في Excel As: Output = 0.75 Ensemble_A + 0.25 Ensemble_B

مزج مجموعتين في التقديمات النهائية

لذلك ، كان لدينا مجموعتان تم إعدادهما باستخدام منهجيات مختلفة. لاحظنا أن مجموعاتنا تتصرف بشكل مختلف في أجزاء مختلفة من مجموعات البيانات ( part1 : id<=163700 ، part2 : 163700 < id <= 221473 ، part_3 : id > 221473 نظرًا لأننا لاحظنا أنماطًا منتظمة في بعض الأجزاء ، فقد قمنا باختلافها ، في بعض الأجزاء التي نلتزم بها ، نمتزج إلى أنماطنا. على افتراض أنه في بعض الأجزاء ، كان أحد النماذج يتصرف أسوأ بكثير من القطاع الخاص منه في الأماكن العامة.

تم إنتاج اثنين من التقديم النهائي لدينا في Excel مع الأوزان من الطاولة أدناه (وزن أجزاء Chenglong's و Igor & Kostia تضيف ما يصل إلى 1). سجل كل من هذه التقديمات نفس 0.43271 على لوحة المتصدرين الخاصة.

	وزن Chenglong لـ `part1` و `part2`	وزن Chenglong لـ `part3`	LB RMSE العامة	LB RMSE الخاص
التقديم 1	0.75	0.8	0.43443	0.43271
التقديم 2	0.6	0.3	0.43433	0.43271

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع شفرة المصدر الأخرى
وقت التحديث 2025-03-11
الحجم 18.66MB
من Github

تطبيقات ذات صلة

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub the via/releases

2024-11-01

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل