Descarga Data Science Hacks - Descargar el código fuente del código Data Science Hacks

Data Science Hacks

Otro código fuente

1.0.0

Descargar

Hacks de ciencia de datos, consejos y trucos

Data Science Hacks es creado y mantenido por Analytics Vidhya para la comunidad de ciencias de datos.

Incluye una variedad de consejos, trucos y hacks relacionados con la ciencia de datos, el aprendizaje automático

Estos hacks son para todos los científicos de datos. No importa si eres un principiante o un profesional avanzado, ¡estos hacks definitivamente te harán eficiente!

Siéntase libre de contribuir con sus propios hacks de ciencia de datos aquí. Asegúrese de que su pirateo siga las pautas de contribución

Este repositorio es parte del curso gratuito de Analytics Vidhya. Para obtener más información sobre los hacks increíbles, visite los hacks, consejos y trucos de ciencia de datos

Data Science Hack #1 - Descargador de recursos

¿Cómo puede extraer datos de imagen directamente de Chrome en un solo clic? Imagine que desea hacer su propio proyecto de aprendizaje automático, pero no tiene suficientes datos, se convierte en una tarea desalentadora. ¡Veamos cómo!

Pasos:

Instale la extensión de Chrome de la URL dada.
Vaya a Google Images o cualquier página web desde donde desee guardar los datos.
Abra la pestaña Inspect y haga clic en ResourcesSaver
Haga clic en el botón Guardar todos los recursos y se creará un archivo zip.
Descompensar el archivo y abrir carpeta encriptada-tbn0.gstatic.com
Puedes encontrar las imágenes aquí.

Pandas de Hack #2 de Data Science Hack

Pandas Aplication es una de las funciones más utilizadas para jugar con datos y crear nuevas variables. Devuelve algún valor después de pasar cada fila/columna de un marco de datos con alguna función. La función puede ser predeterminada o definida por el usuario.

Data Science Hack #3 Pandas Boolean Indexing

Ayuda a seleccionar un subconjunto de datos basado en el valor de los datos en DataFrame

Data Science Hack #4 Tabla de pivote de pandas

Se utiliza para crear la hoja de cálculo de estilo de MS Excel. Los niveles en la tabla de pivote se almacenarán en objetos multiíndexos (índices jerárquicos) en el índice y las columnas del resultado de datos de resultados.

Data Science Hack #5 Pandas Crosstab

La función PD.CrosStab () se usa para obtener una "sensación" inicial de los datos.

Data Science Hack #6 Pandas Str.Split

Se utiliza para aplicar funciones de cadena vectorizadas en una columna Pandas DataFrame. Supongamos que desea dividir los nombres en una columna DataFrame en nombre y apellido. Pandas.series.str junto con Split () se puede usar para realizar esta tarea.

Data Science Hack #7 Extraer correos electrónicos del texto

Aquí hay un truco interesante para extraer ID de correo electrónico presentes en largas piezas de texto simplemente usando 2 líneas de código en Python usando expresiones regulares. Extraer información de publicaciones y sitios web de redes sociales se ha convertido en una práctica común en análisis de datos, pero a veces terminamos probando métodos complicados para lograr cosas que se pueden resolver fácilmente utilizando la técnica correcta.

Data Science Hack #8 Distribución normal

Uno de los supuestos más importantes en la regresión lineal y logística es que nuestros datos deben seguir una distribución normal, pero todos sabemos que generalmente no es el caso en la vida real. A menudo necesitamos transformar nuestros datos en distribución normal/ gaussiana.

Data Science Hack #9 Eliminar emojis del texto

El preprocesamiento es uno de los pasos clave para mejorar el rendimiento de un modelo. Una de las principales razones para el preprocesamiento de texto es eliminar caracteres no deseados de texto como puntuación, emojis, enlaces, etc., en los que no se requiere para nuestra declaración del problema.

Data Science Hack #10 Método de codo para clasificador

El método del codo se utiliza para identificar el valor de K en los vecinos más nears. ¡Es una parcela de errores a diferentes valores de k y seleccionamos el valor k que tiene menos error!

Data Science Hack #11 Minmax Scaler

Una parte importante del análisis de datos es el preprocesamiento. Muchas veces necesitamos escalar nuestras características, como en el caso de K-NN, siempre necesitamos escalar los datos antes de construir el modelo o, de lo contrario, dará resultados espurios.

Data Science Hack #12 Ingeniería de características para datos de series de tiempo

La mayoría de los datos recopilados hoy, mantienen las variables de fecha y hora. ¡Hay mucha información que puede extraer de estas características y puede utilizarla en su análisis!

Data Science Hack #13 Datos ficticios para regresión lineal

Los modelos de aprendizaje profundo generalmente requieren muchos #data para el entrenamiento. Pero adquirir cantidades masivas de datos viene con sus propios desafíos. En lugar de pasar días recopilando datos manualmente, puede utilizar técnicas de aumento de imágenes. Es el proceso de generar nuevas imágenes. Estas nuevas imágenes se generan utilizando las imágenes de entrenamiento existentes y, por lo tanto, no tenemos que recopilarlas manualmente.

Data Science Hack #14 Huggingface Tokenización

La tokenización es la tarea principal al construir el vocabulario. Huggingface recientemente creó una biblioteca para la tokenización que proporciona una implementación de los tokenizadores más utilizados de hoy, con un enfoque en el rendimiento y la versatilidad. Características clave: Ultra-Fast: pueden codificar 1 GB de texto en ~ 20 segundos en la CPU de un servidor estándar

Data Science Hack #15 Divide datos continuos y categóricos

¡Puede extraer características categóricas y numéricas en marcos de datos separados en solo 1 línea de código! Esto se puede hacer utilizando la función select_dtypes.

Data Science Hack #16 Pandas Perfil

¿Desea realizar un análisis de datos rápidos en su marco de datos? ¡Puede usar el perfil PANDAS para generar el informe de perfil de su conjunto de datos en solo 1 línea de código!

Data Science Hack #17 Formateo de DataFrame

¡Convierta amplio marcado de datos en formularios de datos de forma larga en solo 1 línea de código! En PD.Melt (), una columna más se usan como identificadores. "Deshacer los datos", usar la función Pivot ()

Data Science Hack #18 Función mágica- Historia de %

¿Sabes cómo puedes obtener la historia de todos los comandos que se ejecutan dentro de tu cuaderno de Jupyter? ¡Use %History, la función mágica incorporada de Jupyter Notebook! Nota: incluso si ha cortado las celdas en su cuaderno, %History también imprimirá esos comandos.

Data Science Hack #19 Mapa de calor en Pandas DataFrame

¡Crea un mapa de calor en Pandas DataFrame usando Seaborn! Le ayuda a comprender el rango completo de valores a un vistazo.

Data Science Hack #20 Matriz de confusión de la trama

Scikit-Learn ha lanzado su versión Stable 0.22.1 con nuevas características y correcciones de errores. Una nueva función es la función traza_confusion_matrix que genera una matriz de confusión extremadamente intuitiva y personalizable para su clasificador. Consejo de bonificación: puede especificar el formato de los números que aparecen en los cuadros utilizando el parámetro valores_format ('n' para números enteros, '.2f' para flotación, etc.)

Data Science Hack #21 Ipython Interactive Shell

¿Cuál será la salida si ejecuta los siguientes comandos en una sola celda de su cuaderno Jupyter? df.shape df.head () Of Course será las primeras cinco filas de su marco de datos. ¿Podemos obtener la salida del comando ejecutado en la misma celda? Puedes hacerlo usando Interactiveshell.

Data Science Hack #22 Python TQDM

La mayoría de ustedes han oído hablar de la biblioteca TQDM y podrían estar utilizando el seguimiento del progreso de Forever Running for Loops. La mayoría de las veces escribimos funciones complejas que se anidan para bucles. #tqdm permite el seguimiento de eso también. Así es como puede rastrear los bucles anidados usando TDQM en Python.

Data Science Hack #23 Aumento de imágenes

Los modelos de aprendizaje profundo generalmente requieren muchos datos para el entrenamiento. Pero adquirir cantidades masivas de datos viene con sus propios desafíos. En lugar de pasar días recopilando datos manualmente, puede utilizar técnicas de aumento de imágenes. Es el proceso de generar nuevas imágenes. Estas nuevas imágenes se generan utilizando las imágenes de entrenamiento existentes y, por lo tanto, no tenemos que recopilarlas manualmente.

Data Science Hack #24 Configuración del tema del cuaderno Dark Jupyter

Jupyter-Themes proporciona una manera fácil de cambiar el tema, las fuentes y mucho más en su cuaderno Jupyter.

Pasos -

Instalar Jupyter -Themes -
- Usando Anaconda
  conda install -c conda-forge jupyterthemes
- Usando Pip
  pip install jupyterthemes
Verifique la lista de temas -
jt - l
Seleccione un tema
jt -t chesterish
Para restaurar el tema predeterminado -
jt -r

Data Science Hack #25 Cambiar el ancho de la celda en el cuaderno de Jupyter

Para hacer esto, usamos Jupyter-Themes, proporciona una manera fácil de cambiar el tema, las fuentes y mucho más en su cuaderno Jupyter.

Pasos -

Instalar Jupyter -Themes -
- Usando Anaconda
  conda install -c conda-forge jupyterthemes
- Usando Pip
  conda install -c pip install jupyterthemes
Cambiar el tema, el ancho de la celda, la altura de la celda
jt -t chesterish -cellw 100% lineh 170

Data Science Hack #26 parse_dates en read_csv () para cambiar el tipo de datos a dateTime

¿Qué hace cuando necesita cambiar el tipo de datos de una columna a DateTime? Podemos hacer esto directamente al momento de leer datos utilizando el argumento PARSE_DATES.

Data Science Hack 27 Compartir el cuaderno Jupyter usando nbviewer

Puede compartir su cuaderno Jupyter con no programadores muy fácilmente y la mejor manera de hacerlo es usar Jupyter NBViewer. Tip Tip: ¡puede usar Binder para ejecutar el código de NBViewer en su máquina!

Data Science Hack #28 Trazar el árbol de decisión

¿Sabes cómo trazar un árbol de decisión en solo 1 línea de código? Sklearn proporciona una función simple plot_tree () para hacer esta tarea. Puede ajustar los hiperparámetros según sus requisitos.

Data Science Hack #29 Invertir Dictionary

¿Sabes cómo puedes invertir un diccionario en Python? El diccionario es una colección desordenada, cambiante e indexada. Se usa ampliamente en la programación diaria y tareas de aprendizaje automático.

Data Science Hack #30 Bapas interactivas usando Plotly

¡Gematlinks se une directamente a Pandas Dataframes! Por lo tanto, puede hacer gráficos interactivos sin problemas o códigos largos.

Data Science Hack #31 Escriba el archivo Python directamente desde Jupyter Notebook Cell

Este truco se trata de guardar el contenido de una celda en un archivo .py usando el comando mágico %% writefile y luego ejecutar el archivo en otro cuaderno de jupyter usando el comando mágico %run

Data Science Hack #32 Estructuras de datos de impresión bonita

¿Se confunde mientras imprime algunas de las estructuras de datos? No te preocupes, es muy común. ¡El módulo de impresión Pretty proporciona una manera fácil de imprimir las estructuras de datos de una manera visualmente agradable!

Data Science Hack #33 Fecha analizador

Este código le permite convertir la fecha de cualquier formato en un formato especificado. Muchas veces, recibimos fechas de varios formatos en nuestros datos. Este truco lo ayudará a convertir todos esos formatos en un formato especificado.

Data Science Hack #34 Selección de características utilizando selectFrommodel

Una de las formas de realizar la selección de características es mediante el uso de los estimadores básicos de los estimadores base. Usando la función SelectFrommodel, puede especificar el estimador y el umbral para funciones_importance_, este hack usa 'media' como umbral. Puede ajustar el umbral para obtener resultados óptimos. Para obtener más información, visite la documentación

Data Science Hack #35 Convertir cadenas en caracteres

¿Cuál podría ser la forma más fácil de convertir una cadena a caracteres? Aquí hay un hack simple que es útil mientras se trabaja con datos de texto.

Data Science Hack #36 Tamaño de imagen de cambio de tamaño

Mientras construye un modelo de clasificación de imágenes que usa el aprendizaje profundo, se requiere que todas las imágenes sean del mismo tamaño. Sin embargo, como los datos provienen de diferentes fuentes, las imágenes pueden tener diferentes formas. Entonces, para convertirlos en la misma forma, podemos usar la función de cambio de tamaño de Open CV. Este truco lo ayudará a convertir las imágenes de cualquier forma a una forma especificada.

Data Science Hack #37 Aplicar pandas en paralelo

¿Toma tiempo realizar operaciones en su Pandas DataFrame? ¡Pandarallel es una herramienta simple y eficiente para paralelizar las operaciones de Pandas en todas sus CPU disponibles!

Data Science Hack #38 Expresiones de generador versus comprensión de la lista

El generador produce un elemento a la vez y los genera solo cuando se demanda. Los generadores son mucho más eficientes en la memoria. Este hack compara las expresiones del generador con las comprensiones de la lista.

Data Science Hack #39 Prueba tu regex

¿Evita a Regex porque son difíciles de leer y escribir, así como complicados de hacer lo correcto? Este truco te ayuda a que tu regex te corrija. RegEx101 es un probador de regex en línea, depurador con resaltado para PHP, PCRE, Python, Golang y JavaScript

Data Science Hack #40 Convertir la lista de listas en la lista

A veces, los datos pueden ser en forma de lista anidada. Por ejemplo, los datos pueden ser registros de transacciones de fecha para un producto en particular. Sin embargo, es posible que solo necesite en una sola dimensión. Este truco lo ayudará a aplanar la lista de listas en una sola lista.

Data Science Hack #41 Ocultar declaraciones de impresión

A menudo usamos declaraciones de impresión para fines de depuración. Este truco lo ayudará a desactivar las declaraciones de impresión en una sección particular del código para que facilite la depuración.

Data Science Hack #42 Split PDF Document Page En cuanto a la página

Este truco te ayudará a dividir un solo documento PDF en varias páginas.

Data Science Hack #43 Fusionar documentos PDF

Este truco lo ayudará a combinar múltiples documentos PDF en un solo documento. Este hack es el inverso de Hack #42 Split PDF Document Page Wise

Data Science Hack #44 Cree un DataGenerator de datos de imagen personalizado en Keras

A veces necesitaría una funcionalidad que no sea proporcionada directamente por el iMagedAdatagenerator de Keras. Puede crear fácilmente un envoltorio a su alrededor para satisfacer sus necesidades.

Por ejemplo, su USECase es que tiene un modelo de aprendizaje profundo de entrada múltiple como este

(es decir, una red neuronal que toma la entrada de múltiples fuentes de datos, y realiza una capacitación combinada en estos datos), y desea que el generador de datos pueda manejar la preparación de datos en la marcha, puede crear un envoltorio alrededor de la clase IMagedAtagenerator para dar la salida requerida. Esta computadora portátil explica una solución simple a esta ECASE.

Otro caso de uso podría ser que desee cambiar el tamaño de las imágenes de una forma, por ejemplo, 150x150 a una forma 224x224, que generalmente es utilizado por los modelos previos a la aparición, puede personalizar el IMageDatagenerator sin codificar su propio generador de datos desde cero (cuaderno de ejemplo).

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-04-16
tamaño 1.82MB
Proviene de Github

Aplicaciones relacionadas

MMEarth data

2024-11-12
CIENCIA KOMBAT

2023-08-14
CIENCIA KOMBAT versión china

2023-08-12
aplicación la ciencia puede bot

2023-05-11
Minería de datos biológicos

2010-03-22
Recuperación de datos inteligente

2009-06-18

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo

Data Science Hacks

Hacks de ciencia de datos, consejos y trucos

Data Science Hack #1 - Descargador de recursos

Pandas de Hack #2 de Data Science Hack

Data Science Hack #3 Pandas Boolean Indexing

Data Science Hack #4 Tabla de pivote de pandas

Data Science Hack #5 Pandas Crosstab

Data Science Hack #6 Pandas Str.Split

Data Science Hack #7 Extraer correos electrónicos del texto

Data Science Hack #8 Distribución normal

Data Science Hack #9 Eliminar emojis del texto

Data Science Hack #10 Método de codo para clasificador

Data Science Hack #11 Minmax Scaler

Data Science Hack #12 Ingeniería de características para datos de series de tiempo

Data Science Hack #13 Datos ficticios para regresión lineal

Data Science Hack #14 Huggingface Tokenización

Data Science Hack #15 Divide datos continuos y categóricos

Data Science Hack #16 Pandas Perfil

Data Science Hack #17 Formateo de DataFrame

Data Science Hack #18 Función mágica- Historia de %

Data Science Hack #19 Mapa de calor en Pandas DataFrame

Data Science Hack #20 Matriz de confusión de la trama

Data Science Hack #21 Ipython Interactive Shell

Data Science Hack #22 Python TQDM

Data Science Hack #23 Aumento de imágenes

Data Science Hack #24 Configuración del tema del cuaderno Dark Jupyter

Data Science Hack #25 Cambiar el ancho de la celda en el cuaderno de Jupyter

Data Science Hack #26 parse_dates en read_csv () para cambiar el tipo de datos a dateTime

Data Science Hack 27 Compartir el cuaderno Jupyter usando nbviewer

Data Science Hack #28 Trazar el árbol de decisión

Data Science Hack #29 Invertir Dictionary

Data Science Hack #30 Bapas interactivas usando Plotly

Data Science Hack #31 Escriba el archivo Python directamente desde Jupyter Notebook Cell

Data Science Hack #32 Estructuras de datos de impresión bonita

Data Science Hack #33 Fecha analizador

Data Science Hack #34 Selección de características utilizando selectFrommodel

Data Science Hack #35 Convertir cadenas en caracteres

Data Science Hack #36 Tamaño de imagen de cambio de tamaño

Data Science Hack #37 Aplicar pandas en paralelo

Data Science Hack #38 Expresiones de generador versus comprensión de la lista

Data Science Hack #39 Prueba tu regex

Data Science Hack #40 Convertir la lista de listas en la lista

Data Science Hack #41 Ocultar declaraciones de impresión

Data Science Hack #42 Split PDF Document Page En cuanto a la página

Data Science Hack #43 Fusionar documentos PDF

Data Science Hack #44 Cree un DataGenerator de datos de imagen personalizado en Keras