Data Science Hacks es creado y mantenido por Analytics Vidhya para la comunidad de ciencias de datos.
Incluye una variedad de consejos, trucos y hacks relacionados con la ciencia de datos, el aprendizaje automático
Estos hacks son para todos los científicos de datos. No importa si eres un principiante o un profesional avanzado, ¡estos hacks definitivamente te harán eficiente!
Siéntase libre de contribuir con sus propios hacks de ciencia de datos aquí. Asegúrese de que su pirateo siga las pautas de contribución
Este repositorio es parte del curso gratuito de Analytics Vidhya. Para obtener más información sobre los hacks increíbles, visite los hacks, consejos y trucos de ciencia de datos
¿Cómo puede extraer datos de imagen directamente de Chrome en un solo clic? Imagine que desea hacer su propio proyecto de aprendizaje automático, pero no tiene suficientes datos, se convierte en una tarea desalentadora. ¡Veamos cómo!
Pasos:
Pandas Aplication es una de las funciones más utilizadas para jugar con datos y crear nuevas variables. Devuelve algún valor después de pasar cada fila/columna de un marco de datos con alguna función. La función puede ser predeterminada o definida por el usuario.
Ayuda a seleccionar un subconjunto de datos basado en el valor de los datos en DataFrame
Se utiliza para crear la hoja de cálculo de estilo de MS Excel. Los niveles en la tabla de pivote se almacenarán en objetos multiíndexos (índices jerárquicos) en el índice y las columnas del resultado de datos de resultados.
La función PD.CrosStab () se usa para obtener una "sensación" inicial de los datos.
Se utiliza para aplicar funciones de cadena vectorizadas en una columna Pandas DataFrame. Supongamos que desea dividir los nombres en una columna DataFrame en nombre y apellido. Pandas.series.str junto con Split () se puede usar para realizar esta tarea.
Aquí hay un truco interesante para extraer ID de correo electrónico presentes en largas piezas de texto simplemente usando 2 líneas de código en Python usando expresiones regulares. Extraer información de publicaciones y sitios web de redes sociales se ha convertido en una práctica común en análisis de datos, pero a veces terminamos probando métodos complicados para lograr cosas que se pueden resolver fácilmente utilizando la técnica correcta.
Uno de los supuestos más importantes en la regresión lineal y logística es que nuestros datos deben seguir una distribución normal, pero todos sabemos que generalmente no es el caso en la vida real. A menudo necesitamos transformar nuestros datos en distribución normal/ gaussiana.
El preprocesamiento es uno de los pasos clave para mejorar el rendimiento de un modelo. Una de las principales razones para el preprocesamiento de texto es eliminar caracteres no deseados de texto como puntuación, emojis, enlaces, etc., en los que no se requiere para nuestra declaración del problema.
El método del codo se utiliza para identificar el valor de K en los vecinos más nears. ¡Es una parcela de errores a diferentes valores de k y seleccionamos el valor k que tiene menos error!
Una parte importante del análisis de datos es el preprocesamiento. Muchas veces necesitamos escalar nuestras características, como en el caso de K-NN, siempre necesitamos escalar los datos antes de construir el modelo o, de lo contrario, dará resultados espurios.
La mayoría de los datos recopilados hoy, mantienen las variables de fecha y hora. ¡Hay mucha información que puede extraer de estas características y puede utilizarla en su análisis!
Los modelos de aprendizaje profundo generalmente requieren muchos #data para el entrenamiento. Pero adquirir cantidades masivas de datos viene con sus propios desafíos. En lugar de pasar días recopilando datos manualmente, puede utilizar técnicas de aumento de imágenes. Es el proceso de generar nuevas imágenes. Estas nuevas imágenes se generan utilizando las imágenes de entrenamiento existentes y, por lo tanto, no tenemos que recopilarlas manualmente.
La tokenización es la tarea principal al construir el vocabulario. Huggingface recientemente creó una biblioteca para la tokenización que proporciona una implementación de los tokenizadores más utilizados de hoy, con un enfoque en el rendimiento y la versatilidad. Características clave: Ultra-Fast: pueden codificar 1 GB de texto en ~ 20 segundos en la CPU de un servidor estándar
¡Puede extraer características categóricas y numéricas en marcos de datos separados en solo 1 línea de código! Esto se puede hacer utilizando la función select_dtypes.
¿Desea realizar un análisis de datos rápidos en su marco de datos? ¡Puede usar el perfil PANDAS para generar el informe de perfil de su conjunto de datos en solo 1 línea de código!
¡Convierta amplio marcado de datos en formularios de datos de forma larga en solo 1 línea de código! En PD.Melt (), una columna más se usan como identificadores. "Deshacer los datos", usar la función Pivot ()
¿Sabes cómo puedes obtener la historia de todos los comandos que se ejecutan dentro de tu cuaderno de Jupyter? ¡Use %History, la función mágica incorporada de Jupyter Notebook! Nota: incluso si ha cortado las celdas en su cuaderno, %History también imprimirá esos comandos.
¡Crea un mapa de calor en Pandas DataFrame usando Seaborn! Le ayuda a comprender el rango completo de valores a un vistazo.
Scikit-Learn ha lanzado su versión Stable 0.22.1 con nuevas características y correcciones de errores. Una nueva función es la función traza_confusion_matrix que genera una matriz de confusión extremadamente intuitiva y personalizable para su clasificador. Consejo de bonificación: puede especificar el formato de los números que aparecen en los cuadros utilizando el parámetro valores_format ('n' para números enteros, '.2f' para flotación, etc.)
¿Cuál será la salida si ejecuta los siguientes comandos en una sola celda de su cuaderno Jupyter? df.shape df.head () Of Course será las primeras cinco filas de su marco de datos. ¿Podemos obtener la salida del comando ejecutado en la misma celda? Puedes hacerlo usando Interactiveshell.
La mayoría de ustedes han oído hablar de la biblioteca TQDM y podrían estar utilizando el seguimiento del progreso de Forever Running for Loops. La mayoría de las veces escribimos funciones complejas que se anidan para bucles. #tqdm permite el seguimiento de eso también. Así es como puede rastrear los bucles anidados usando TDQM en Python.
Los modelos de aprendizaje profundo generalmente requieren muchos datos para el entrenamiento. Pero adquirir cantidades masivas de datos viene con sus propios desafíos. En lugar de pasar días recopilando datos manualmente, puede utilizar técnicas de aumento de imágenes. Es el proceso de generar nuevas imágenes. Estas nuevas imágenes se generan utilizando las imágenes de entrenamiento existentes y, por lo tanto, no tenemos que recopilarlas manualmente.
Jupyter-Themes proporciona una manera fácil de cambiar el tema, las fuentes y mucho más en su cuaderno Jupyter.
Pasos -
conda install -c conda-forge jupyterthemes
pip install jupyterthemes
jt - l
jt -t chesterish
jt -r
Para hacer esto, usamos Jupyter-Themes, proporciona una manera fácil de cambiar el tema, las fuentes y mucho más en su cuaderno Jupyter.
Pasos -
Instalar Jupyter -Themes -
conda install -c conda-forge jupyterthemes
conda install -c pip install jupyterthemes
Cambiar el tema, el ancho de la celda, la altura de la celda
jt -t chesterish -cellw 100% lineh 170
¿Qué hace cuando necesita cambiar el tipo de datos de una columna a DateTime? Podemos hacer esto directamente al momento de leer datos utilizando el argumento PARSE_DATES.
Puede compartir su cuaderno Jupyter con no programadores muy fácilmente y la mejor manera de hacerlo es usar Jupyter NBViewer. Tip Tip: ¡puede usar Binder para ejecutar el código de NBViewer en su máquina!
¿Sabes cómo trazar un árbol de decisión en solo 1 línea de código? Sklearn proporciona una función simple plot_tree () para hacer esta tarea. Puede ajustar los hiperparámetros según sus requisitos.
¿Sabes cómo puedes invertir un diccionario en Python? El diccionario es una colección desordenada, cambiante e indexada. Se usa ampliamente en la programación diaria y tareas de aprendizaje automático.
¡Gematlinks se une directamente a Pandas Dataframes! Por lo tanto, puede hacer gráficos interactivos sin problemas o códigos largos.
Este truco se trata de guardar el contenido de una celda en un archivo .py usando el comando mágico %% writefile y luego ejecutar el archivo en otro cuaderno de jupyter usando el comando mágico %run
¿Se confunde mientras imprime algunas de las estructuras de datos? No te preocupes, es muy común. ¡El módulo de impresión Pretty proporciona una manera fácil de imprimir las estructuras de datos de una manera visualmente agradable!
Este código le permite convertir la fecha de cualquier formato en un formato especificado. Muchas veces, recibimos fechas de varios formatos en nuestros datos. Este truco lo ayudará a convertir todos esos formatos en un formato especificado.
Una de las formas de realizar la selección de características es mediante el uso de los estimadores básicos de los estimadores base. Usando la función SelectFrommodel, puede especificar el estimador y el umbral para funciones_importance_, este hack usa 'media' como umbral. Puede ajustar el umbral para obtener resultados óptimos. Para obtener más información, visite la documentación
¿Cuál podría ser la forma más fácil de convertir una cadena a caracteres? Aquí hay un hack simple que es útil mientras se trabaja con datos de texto.
Mientras construye un modelo de clasificación de imágenes que usa el aprendizaje profundo, se requiere que todas las imágenes sean del mismo tamaño. Sin embargo, como los datos provienen de diferentes fuentes, las imágenes pueden tener diferentes formas. Entonces, para convertirlos en la misma forma, podemos usar la función de cambio de tamaño de Open CV. Este truco lo ayudará a convertir las imágenes de cualquier forma a una forma especificada.
¿Toma tiempo realizar operaciones en su Pandas DataFrame? ¡Pandarallel es una herramienta simple y eficiente para paralelizar las operaciones de Pandas en todas sus CPU disponibles!
El generador produce un elemento a la vez y los genera solo cuando se demanda. Los generadores son mucho más eficientes en la memoria. Este hack compara las expresiones del generador con las comprensiones de la lista.
¿Evita a Regex porque son difíciles de leer y escribir, así como complicados de hacer lo correcto? Este truco te ayuda a que tu regex te corrija. RegEx101 es un probador de regex en línea, depurador con resaltado para PHP, PCRE, Python, Golang y JavaScript
A veces, los datos pueden ser en forma de lista anidada. Por ejemplo, los datos pueden ser registros de transacciones de fecha para un producto en particular. Sin embargo, es posible que solo necesite en una sola dimensión. Este truco lo ayudará a aplanar la lista de listas en una sola lista.
A menudo usamos declaraciones de impresión para fines de depuración. Este truco lo ayudará a desactivar las declaraciones de impresión en una sección particular del código para que facilite la depuración.
Este truco te ayudará a dividir un solo documento PDF en varias páginas.
Este truco lo ayudará a combinar múltiples documentos PDF en un solo documento. Este hack es el inverso de Hack #42 Split PDF Document Page Wise
A veces necesitaría una funcionalidad que no sea proporcionada directamente por el iMagedAdatagenerator de Keras. Puede crear fácilmente un envoltorio a su alrededor para satisfacer sus necesidades.

(es decir, una red neuronal que toma la entrada de múltiples fuentes de datos, y realiza una capacitación combinada en estos datos), y desea que el generador de datos pueda manejar la preparación de datos en la marcha, puede crear un envoltorio alrededor de la clase IMagedAtagenerator para dar la salida requerida. Esta computadora portátil explica una solución simple a esta ECASE.