Descargar kaggle HomeDepot - Descargar el código fuente kaggle HomeDepot

kaggle HomeDepot

Otro código fuente

1.0.0

Descargar

Kaggle_homedepot

Solución de Turing Test para la competencia de relevancia de búsqueda de productos Home Depot en Kaggle

Envío

Envío	CV RMSE	LB Public LB RMSE	LB RMSE privado	Posición
Modelo único simplificado de Igor y Kostia (10 características)	0.44792	0.45072	0.44949	31
El mejor modelo único de Igor y Kostia	0.43787	0.44017	0.43895	11
El mejor modelo único de Chenglong	0.43832	0.43996	0.43811	9
Mejor modelo de conjunto de Igor y Kostia	-	0.43819	0.43704	8
Mejor modelo de conjunto de Chenglong	0.43550	0.43555	0.43368	6
El mejor modelo de conjunto final	-	0.43433	0.43271	3

Diagrama de flujo

Documentación

Ver ./Doc/Kaggle_HomeDepot_Turing_Test.pdf para la documentación.

Instrucción

La parte de Chenglong

Antes de continuar, uno debe colocar todos los datos del sitio web de la competencia en la carpeta ./Data .

Tenga en cuenta que al siguiente, todos los comandos y scripts se ejecutan y se ejecutan en el directorio ./Code/Chenglong .

Paso 1. Instalar dependencias

1. Python

Usamos Python 3.5.1 y los módulos vienen con Anaconda 2.4.1 (64 bits). Además, también utilizamos las siguientes bibliotecas y módulos:

Gensim 0.12.4
Hypertopt 0.0.3.dev
Keras 0.3.2
matplotlib-hvenn 0.11.3
Python-Levenshtein 0.12.0
Regex 2.4.85
xgboost 0.4

2. R

Utilizamos los siguientes paquetes instalados a través de install.packages() :

data.table
Rtsne

3. Otros

Usamos los siguientes paquetes de terceros:

RGF 1.2

Paso 2. Prepare datos externos

1. Modelo de Word2VEC previamente capacitado

Utilizamos modelos Word2VEC previamente capacitados enumerados en este repositorio de GitHub. En específico:

Google News
Wikipedia+Gigaword 5

Utilizamos Glove-Gensim para convertir los vectores de guantes en formato Word2Vec para un fácil uso con Gensim. Después de eso, coloque todos los modelos en el directorio correspondiente (ver config.py para obtener detalles).

2. Otros

También utilizamos los siguientes datos externos:

Datos de color de esta publicación del foro de Kaggle, es decir, ./Data/dict/color_data.py en este repositorio.
Diccionario de corrección de ortografía de Google de esta publicación del foro de Kaggle, es decir, google_spelling_checker_dict.py en este repositorio.
Diccionario de reemplazo de palabras hecho en casa, es decir, ./Data/dict/word_replacer.csv en este repositorio.
Datos de Corporación y Taggers NLTK descargados usando nltk.download() , específicamente: stopwords.zip , wordnet.zip y maxent_treebank_pos_tagger.zip .

Paso 3. Generar características

Para generar datos y características, uno debe ejecutar python run_data.py . Si bien hemos hecho todo lo posible para hacer las cosas lo más paralelismo y eficiente posible, esta parte aún podría tardar 1 ~ 2 días en terminar, dependiendo de la potencia computacional. Así que sé paciente :)

Tenga en cuenta que varios procesos de texto son útiles para introducir la diversidad en el conjunto. De hecho, un conjunto de características (es decir, basic20160313 ) a partir de nuestra solución final se genera antes de la publicación de tipos de errores, es decir, no usar el diccionario de corrección de ortografía de Google. Dicha versión de las características se puede generar apagando el indicador GOOGLE_CORRECTING_QUERY en config.py .

Después de fusionar el equipo con Igor y Kostia, hemos reconstruido todo desde cero, y la mayoría de nuestros modelos utilizaron diferentes subconjuntos de las características de Igor y Kostia. Por esta razón, también debe generar sus características. Dado que las características de Igor y Kostia están en formato .csv DataFrame, proporcionamos un convertidor turing_test_converter.py para convertirlas en el formato que utilizamos, es decir, .pkl .

Paso 4. Generar matriz de características

En el paso 3, hemos generado algunos miles de características. Sin embargo, solo una parte de ellos se utilizará para construir nuestro modelo. Por ejemplo, no necesitamos esas características que tienen muy poca potencia predictiva (por ejemplo, tienen una correlación muy pequeña con la relevancia objetivo). Por lo tanto, necesitamos hacer alguna selección de características.

En nuestra solución, la selección de características se habilita a través de los siguientes dos pasos sucesivos.

1. Selección de características manuales de estilo regex

Este enfoque se implementa como get_feature_conf_*.py . La idea general es incluir o excluir características específicas a través de operaciones regex de los nombres de características. Por ejemplo,

Se puede especificar las características que desea incluir a través de la variable MANDATORY_FEATS , a pesar de su correlación con el objetivo
También se puede especificar las características que desea excluir a través de la variable COMMENT_OUT_FEATS , a pesar de su correlación con el objetivo ( MANDATORY_FEATS tiene mayor prioridad que COMMENT_OUT_FEATS ).

La salida de esto es un archivo de confirmación de características. Por ejemplo, después de ejecutar el siguiente comando:
python get_feature_conf_nonlinear.py -d 10 -o feature_conf_nonlinear_201605010058.py
Obtendremos una nueva función conf ./conf/feature_conf_nonlinear_201605010058.py que contiene un diccionario de características que especifica las características que se incluirán en el siguiente paso.

Se puede jugar con MANDATORY_FEATS y COMMENT_OUT_FEATS para generar diferentes subconjuntos de características. Hemos incluido en ./conf algunos otros confirmos de características de nuestra presentación final. Entre ellos, feature_conf_nonlinear_201604210409.py se utiliza para construir el mejor modelo único.

2. Selección de características basada en correlación

Con el conteo de características generado anteriormente, uno puede combinar todas las características en una matriz de funciones a través del siguiente comando:
python feature_combiner.py -l 1 -c feature_conf_nonlinear_201604210409 -n basic_nonlinear_201604210409 -t 0.05

El -t 0.05 anterior se usa para habilitar la selección de características de la base de correlación. En este caso, significa: suelte cualquier característica que tenga un coef de correlación inferior a 0.05 con la relevancia objetivo.

TODO (Chenglong): explore otras estrategias de selección de características, por ejemplo, selección de características de avance codicioso (FFS) y selección de características atrasadas (BFS).

Paso 5. Generar envío

1. Varias tareas

En nuestra solución, una task es un compuesto de objeto de una feature específica (por ejemplo, basic_nonlinear_201604210409 ) y un learner específico ( XGBoostRegressor de xgboost). Las definiciones de task , feature y learner están en task.py .

Tome el siguiente comando por ejemplo.
python task.py -m single -f basic_nonlinear_201604210409 -l reg_xgb_tree -e 100

Ejecuta una task con feature basic_nonlinear_201604210409 y learner reg_xgb_tree .
La task se optimiza con HypertoPt para 100 Evals para buscar los mejores parámetros para learner reg_xgb_tree .
La task realiza CV y REEMPLETO FINAL. El CV en este caso tiene dos propósitos: 1) Guía de Hypertopt para encontrar los mejores parámetros, y 2) generar predicciones para cada pliegue CV para una apilamiento adicional (segundo y tercer nivel).
Para todos los alumnos disponibles y el espacio de búsqueda de parámetros correspondiente, consulte model_param_space.py .

Durante la competencia, hemos realizado varias tareas (es decir, varias características y diversos alumnos) para generar una diversa biblioteca de modelos de primer nivel. Consulte ./Log/level1_models para ver todas las tareas que hemos incluido en nuestra presentación final.

2. Mejor modelo único

Después de generar la feature basic_nonlinear_201604210409 (consulte el paso 4 Cómo generar esto), ejecute el siguiente comando para generar el mejor modelo único:
python task.py -m single -f basic_nonlinear_201604210409 -l reg_xgb_tree_best_single_model -e 1

Esto debería generar una sumisión con CV RMSE local alrededor de 0.438 ~ 0.439.

3. Mejor modelo de conjunto

Después de construir algunos modelos diversos de primer nivel, ejecute el siguiente comando para generar el mejor modelo de conjunto:
python run_stacking_ridge.py -l 2 -d 0 -t 10 -c 1 -L reg_ensemble -o

Esto debería generar una sumisión con CV RMSE local alrededor de 0.436.

La parte de Igor y Kostia

Antes de continuar, se debe especificar rutas correctas en el archivo config_IgorKostia.py y colocar todos los datos del sitio web de la competencia en la carpeta especificada por variable DATA_DIR . Para reproducir nuestro Ensemble_B desde el paso IK5, se debe colocar los conjuntos de características usados en la carpeta especificadas por variable FEATURESETS_DIR . Tenga en cuenta que al siguiente, todos los comandos y scripts se ejecutan y se ejecutan en el directorio ./Code/Igor&Kostia .

Paso IK1. Instalar dependencias

1. Python

Utilizamos Python 2.7.11 en la plataforma de Windows y los módulos vienen con Anaconda 2.4.0 (64 bits), que incluyen:

Scikit-learn 0.17.1
Numpy 1.10.1
pandas 0.17.0
Re 2.2.1
matplotlib 1.4.3
Scipy 0.16.0

Además, también utilizamos las siguientes bibliotecas y módulos:

Comando nltk 3.1 (use nltk.download() )
Gensim 0.12.2
xgboost 0.4

Algunos análisis descriptivos y la mezcla final del modelo también se realizaron en Excel 2007 y Excel 2010.

Paso IK2. Preprocesamiento de texto

Hacemos todo el preprocesamiento de texto antes de cualquier generación de funciones y guardamos los resultados en los archivos. Nos ayudó a ahorrar algunos días informáticos ya que son necesarios los mismos pasos de preprocesamiento para generar diferentes características.

Ejecutar text_processing.py .
Ejecutar text_processing_wo_google.py .

Los datos de reemplazo necesarios se cargan automáticamente desde los archivos homedepot_functions.py y google_dict.py .

Paso IK3. Generación de características

Necesitamos ejecutar en consecuencia los siguientes archivos:

feature_extraction1.py .
grams_and_terms_features.py .
dld_features.py .
word2vec.py .

Para generar funciones sin usar el Diccionario de Google, también necesitamos ejecutar:

feature_extraction1_wo_google.py .
word2vec_without_google_dict.py .

Como resultado, tendremos algunos archivos CSV con las características necesarias para la construcción de modelos.

Paso IK4. Genere el modelo de referencia con importantes de características

Ejecutar generate_feature_importances.py .

Paso IK5. Generar el archivo de envío

Se genera una parte del conjunto Ensemble_A a partir del siguiente código:

generate_models.py .
generate_model_wo_google.py .
generate_ensemble_output_from_models.py .

Para obtener la otra parte Ensemble_B , necesitamos ejecutar estos archivos:

ensemble_script_imitation_version.py (simplemente reproduce la selección de características aleatorias generadas desde ensemble_script_random_version.py . No necesita ejecutar ensemble_script_random_version.py nuevamente).
model_selecting.py .

Estas dos partes se pueden generar en paralelo. Nuestra presentación final de Igor & Kostia se produjo en Excel como: Output = 0.75 Ensemble_A + 0.25 Ensemble_B

Mezclar dos conjuntos en las presentaciones finales

Entonces, teníamos dos conjuntos preparados utilizando diferentes metodologías. Observamos que nuestros conjuntos se comportan de manera diferente en diferentes partes de los conjuntos de datos ( part1 : id<=163700 , part2 : 163700 < id <= 221473 , part_3 : id > 221473 Dado que observamos los patrones regulares en los datos, también pensamos que uno de los de los Arsembles podría ser especialmente predeterminado a Over -Fitting. Suponiendo que en algunas partes uno de los modelos se comportaría mucho peor en privado que en público.

Nuestras dos sumisiones finales se produjeron en Excel con los pesos de la tabla a continuación (el peso para las piezas de Chenglong e Igor & Kostia se suma hasta 1). Ambas presentaciones obtuvieron el mismo 0.43271 en la clasificación privada.

	Peso chenglong para `part1` y `part2`	Peso chenglong para `part3`	LB Public LB RMSE	LB RMSE privado
Presentación 1	0.75	0.8	0.43443	0.43271
Presentación 2	0.6	0.3	0.43433	0.43271

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-03-11
tamaño 18.66MB
Proviene de Github

Aplicaciones relacionadas

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub the via/releases

2024-11-01

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo