Téléchargement Data Science Hacks - Data Science Hacks Code source Téléchargement

Data Science Hacks

Autre code source

1.0.0

Télécharger

Data Science Hacks, Conseils et astuces

Data Science Hacks est créé et maintenu par Analytics Vidhya pour la communauté des sciences des données.

Il comprend une variété de conseils, astuces et hacks liés à la science des données, à l'apprentissage automatique

Ces hacks sont destinés à tous les scientifiques des données. Peu importe si vous êtes un débutant ou un professionnel avancé, ces hacks vous rendront certainement efficace!

N'hésitez pas à contribuer vos propres hacks de science des données ici. Assurez-vous que votre hack suit les directives de contribution

Ce référentiel fait partie du cours gratuit par analytique vidhya. Pour en savoir plus sur de tels hacks impressionnants, visitez les hacks, les conseils et les astuces de la science des données

Data Science Hack # 1 - téléchargeur de ressources

Comment pouvez-vous extraire les données d'image directement à partir de Chrome en un seul clic? Imaginez que vous souhaitez faire votre propre projet d'apprentissage automatique mais vous n'avez pas assez de données, cela devient une tâche intimidante, non pas utiliser l'extension Resourcesaver pour télécharger directement les données! Voyons comment!

Mesures:

Installez l'extension Chrome à partir de l'URL donnée.
Accédez à Google Images ou à toute page Web à partir de l'endroit où vous souhaitez enregistrer les données.
Ouvrez l'élément d'inspection et cliquez sur Resourcesaver Tab
Cliquez sur le bouton Enregistrer toutes les ressources et un fichier zip sera créé.
Décompressez le fichier et ouvrez le dossier crypté-tbn0.gstatic.com
Vous pouvez trouver les images ici.

Data Science Hack # 2 Pandas s'applique

Pandas s'applique est l'une des fonctions les plus couramment utilisées pour jouer avec les données et créer de nouvelles variables. Il renvoie une certaine valeur après avoir passé chaque ligne / colonne d'une trame de données avec une fonction. La fonction peut être à la fois par défaut ou définie par l'utilisateur.

Data Science Hack # 3 Pandas Boolean Indexation

Il aide à sélectionner le sous-ensemble de données en fonction de la valeur des données dans le dataframe

Data Science Hack # 4 Pandas Pivot Table

Il est utilisé pour créer une feuille de calcul de style MS Excel. Les niveaux de la table PIVOT seront stockés dans des objets multi-index (index hiérarchiques) sur l'index et les colonnes du résultat DataFrame.

Data Science Hack # 5 Pandas Crosstab

La fonction pd.crosstab () est utilisée pour obtenir une «sensation» (vue »initiale des données.

Data Science Hack # 6 Pandas Str.Split

Il est utilisé pour appliquer les fonctions de chaîne vectorielles sur une colonne Pandas DataFrame. Disons que vous souhaitez diviser les noms dans une colonne DataFrame en prénom et nom de famille. pandas.series.str ainsi que Split () peuvent être utilisés pour effectuer cette tâche.

Data Science Hack # 7 Extrait des e-mails du texte

Voici un piratage intéressant pour extraire les identifiants de messagerie présents dans de longs morceaux de texte en utilisant simplement 2 lignes de code dans Python en utilisant des expressions régulières. L'extraction des informations des publications et des sites Web des médias sociaux est devenue une pratique courante dans l'analyse des données, mais parfois nous finissons par essayer des méthodes compliquées pour réaliser des choses qui peuvent être résolues facilement en utilisant la bonne technique.

Data Science Hack # 8 Distribution normale

L'une des hypothèses les plus importantes de régression linéaire et logistique est que nos données doivent suivre une distribution normale, mais nous savons tous que ce n'est généralement pas le cas dans la vie réelle. Nous devons souvent transformer nos données en distribution normale / gaussienne.

Data Science Hack # 9 Supprimer les emojis du texte

Le prétraitement est l'une des étapes clés pour améliorer les performances d'un modèle. L'une des principales raisons du prétraitement du texte est de supprimer les caractères indésirables du texte comme la ponctuation, les emojis, les liens, etc., ce qui n'est pas requis pour notre déclaration de problème.

Data Science Hack # 10 Méthode du coude pour le classificateur

La méthode du coude est utilisée pour identifier la valeur de K dans les voisins K-Dearest. Il s'agit d'un tracé d'erreurs à différentes valeurs de K et nous sélectionnons la valeur k ayant le moins d'erreur!

Data Science Hack # 11 Minmax Scalmer

Une partie importante de l'analyse des données consiste à prétraiter. Plusieurs fois, nous devons évoluer nos fonctionnalités comme dans le cas de K-NN, nous devons toujours évoluer les données avant de construire le modèle, sinon cela donnera des résultats faux.

Data Science Hack # 12 Fonctionnalité Ingénierie pour les séries chronologiques Données

La plupart des données collectées aujourd'hui, contiennent les variables de date et d'heure. Il y a beaucoup d'informations que vous pouvez extraire de ces fonctionnalités et vous pouvez l'utiliser dans votre analyse!

Data Science Hack # 13 Données manuelles pour la régression linéaire

Les modèles Deeplearning nécessitent généralement beaucoup de #DATA pour la formation. Mais l'acquisition de quantités massives de données s'accompagne de ses propres défis. Au lieu de passer des jours à collecter manuellement des données, vous pouvez utiliser des techniques d'augmentation d'image. C'est le processus de génération de nouvelles images. Ces nouvelles images sont générées à l'aide des images d'entraînement existantes et nous n'avons donc pas à les collecter manuellement.

Data Science Hack # 14 Huggingface Tokenisation

La tokenisation est la tâche principale lors de la construction du vocabulaire. HuggingFace a récemment créé une bibliothèque de tokenisation qui fournit une implémentation des tokenisers les plus utilisés d'aujourd'hui, en mettant l'accent sur les performances et la polyvalence. Caractéristiques clés: ultra-rapide: ils peuvent coder 1 Go de texte en ~ 20 secondes sur le processeur d'un serveur standard

Data Science Hack # 15 Diviser les données continues et catégoriques

Vous pouvez extraire des fonctionnalités catégorielles et numériques dans des dataframes séparés dans seulement 1 ligne de code! Cela peut être fait à l'aide de la fonction SELECT_DTYPES.

Data Science Hack # 16 Profilage Pandas

Voulez-vous effectuer une analyse rapide des données sur votre dataframe? Vous pouvez utiliser le profilage Pandas pour générer un rapport de profil de votre ensemble de données dans seulement 1 ligne de code!

Data Science Hack # 17 Formatage de DataFrame

Convertissez les données larges de DataFrame en longue forme DataFrame en seulement 1 ligne de code! Dans pd.melt (), une autre colonne est utilisée comme identifiants. "Définissez les données", utilisez la fonction pivot ()

Data Science Hack # 18 Fonction magique -% Historique

Savez-vous comment vous pouvez obtenir l'historique de toutes les commandes exécutant dans votre cahier Jupyter? Utilisez% History, la fonction magique intégrée de Jupyter Notebook! Remarque - Même si vous avez coupé les cellules dans votre ordinateur portable,% History imprimera également ces commandes!

Data Science Hack # 19 HEATMAP sur Pandas DataFrame

Créez une carte thermique sur Pandas DataFrame en utilisant SeaBorn! Il vous aide à comprendre la plage complète des valeurs à un aperçu.

Data Science Hack # 20 Plot Confusion Matrix

Scikit-Learn a publié sa version stable 0.22.1 avec de nouvelles fonctionnalités et des corrections de bogues. Une nouvelle fonction est la fonction Plot_confusion_Matrix qui génère une matrice de confusion extrêmement intuitive et personnalisable pour votre classificateur. Conseil de bonus: vous pouvez spécifier le format des nombres apparaissant dans les cases à l'aide du paramètre VALEUR ('n' pour les nombres entiers, .2f 'pour float, etc.)

Data Science Hack # 21 Ipython Interactive Shell

Quelle sera la sortie si vous exécutez les commandes suivantes dans une seule cellule de votre cahier Jupyter? Df.shape df.head () Il sera bien sûr les cinq premières lignes de votre dataframe. Pouvons-nous obtenir la sortie de la commande exécutée dans la même cellule? Vous pouvez le faire à l'aide d'interactiveshell.

Data Science Hack # 22 Python TQDM

La plupart d'entre vous ont entendu parler de la bibliothèque TQDM et vous pourriez l'utiliser, suivez la progression de la course pour toujours pour les boucles. La plupart du temps, nous écrivons des fonctions complexes ayant imbriqué des boucles. #TQDM permet également de suivre cela. Voici comment vous pouvez suivre les boucles imbriquées en utilisant TDQM dans Python.

Data Science Hack # 23 Augmentation de l'image

Les modèles Deeplearning nécessitent généralement beaucoup de données pour la formation. Mais l'acquisition de quantités massives de données s'accompagne de ses propres défis. Au lieu de passer des jours à collecter manuellement des données, vous pouvez utiliser des techniques d'augmentation d'image. C'est le processus de génération de nouvelles images. Ces nouvelles images sont générées à l'aide des images d'entraînement existantes et nous n'avons donc pas à les collecter manuellement.

Data Science Hack # 24 Configuration du cahier de Jupyter Dark Jupyter Thème

Jupyter-thems offre un moyen facile de changer de thème, de polices et bien plus encore dans votre cahier de jupyter.

Étapes -

Installez les thèmes Jupyter -
- Utilisation d'Anaconda
  conda install -c conda-forge jupyterthemes
- Utilisation de pip
  pip install jupyterthemes
Vérifiez la liste des thèmes -
jt - l
Sélectionnez un thème
jt -t chesterish
Pour restaurer sur le thème par défaut -
jt -r

Data Science Hack # 25 Changer la largeur des cellules dans Jupyter Notebook

Pour ce faire, nous utilisons des thèmes de jupyter, il offre un moyen facile de changer de thème, de polices et bien plus encore dans votre cahier de jupyter.

Étapes -

Installez les thèmes Jupyter -
- Utilisation d'Anaconda
  conda install -c conda-forge jupyterthemes
- Utilisation de pip
  conda install -c pip install jupyterthemes
Changer le thème, la largeur des cellules, la hauteur des cellules
jt -t chesterish -cellw 100% lineh 170

Data Science Hack # 26 parse_dates dans read_csv () pour modifier le type de données en datetime

Que faites-vous lorsque vous devez modifier le type de données d'une colonne en DateTime? Nous pouvons le faire directement au moment de la lecture des données à l'aide de l'argument PARSE_DATES.

Data Science Hack 27 Partagez le cahier Jupyter à l'aide de NBViewer

Vous pouvez partager votre cahier Jupyter avec des non-programmeurs très facilement et la meilleure façon de le faire est d'utiliser Jupyter NBViewer. Conseil de pro - Vous pouvez utiliser Binder pour exécuter le code de NBViewer sur votre machine!

Data Science Hack # 28 Plotting Decision Tree

Savez-vous comment tracer un arbre de décision en seulement 1 ligne de code? Sklearn fournit un tracé de fonction simple_tree () pour effectuer cette tâche. Vous pouvez modifier les hyperparamètres selon vos besoins.

Data Science Hack # 29 Invert Dictionary

Savez-vous comment vous pouvez inverser un dictionnaire à Python? Le dictionnaire est une collection non ordonnée, modifiable et indexée. Il est largement utilisé dans la programmation quotidienne et les tâches d'apprentissage automatique.

Data Science Hack # 30 Diagrammes interactifs en utilisant Plotly

Les boutons de manchette se lient directement à Pandas DataFrames! Par conséquent, vous pouvez faire des graphiques interactifs sans tracas ou codes longs.

Data Science Hack # 31 Écrivez un fichier Python directement à partir de la cellule de cahier Jupyter

Ce hack vise à enregistrer le contenu d'une cellule dans un fichier .py en utilisant la commande magique %% WriteFile, puis en exécutant le fichier dans un autre ordinateur portable Jupyter en utilisant la commande magique%

Data Science Hack # 32 Structures de données jolies imprimées

Vous confondez-vous tout en imprimant certaines des structures de données? Ne vous inquiétez pas, c'est très courant. Le module Prettrial fournit un moyen facile d'imprimer les structures de données de manière visuellement agréable!

Data Science Hack # 33 Parser Date

Ce code vous permet de convertir la date de tout format en format spécifié. Plusieurs fois, nous recevons des dates de divers formats dans nos données. Ce hack vous aidera à convertir tous ces formats en format spécifié.

Data Science Hack # 34 Sélection des fonctionnalités à l'aide de SelectFromyl

L'une des façons d'effectuer la sélection des fonctionnalités est d'utiliser l'attribut de fonctionnalité_importance_ des estimateurs de base. À l'aide de la fonction SELECTFROGLODEL, vous pouvez spécifier l'estimateur et le seuil pour fonctionnant_importance_, ce hack utilise «moyenne» comme seuil. Vous pouvez modifier le seuil pour obtenir des résultats optimaux. Pour en savoir plus, visitez la documentation

Data Science Hack # 35 Convertir les chaînes en caractères

Quel pourrait être le moyen le plus simple de convertir une chaîne en caractères? Voici un simple hack qui est utile tout en travaillant avec des données de texte

Data Science Hack # 36 REMIZER Taille de l'image

Lors de la création d'un modèle de classification d'image à l'aide d'un apprentissage en profondeur, il est nécessaire que toutes les images soient de même taille. Cependant, comme les données proviennent de différentes sources, les images peuvent avoir différentes formes. Ainsi, pour les convertir en même forme, nous pouvons utiliser la fonction de redimensionnement à partir de CV ouvert. Ce hack vous aidera à convertir les images de toute forme en forme spécifiée.

Data Science Hack # 37 Appliquer des pandas en parallèle

Cela prend-il du temps pour effectuer des opérations sur votre Pandas DataFrame? Pandarallel est un outil simple et efficace pour paralléliser les opérations de Pandas sur tous vos processeurs disponibles!

Data Science Hack # 38 Expressions du générateur vs compréhension de la liste

Le générateur fournit un élément à la fois et les génère uniquement lorsqu'il est en demande. Les générateurs sont beaucoup plus efficaces en mémoire. Ce hack compare les expressions de générateur avec les compréhensions de la liste.

Data Science Hack # 39 Testez votre regex

Évitez-vous le regex, car ils sont difficiles à lire et à écrire ainsi que délicats pour bien faire? Ce piratage vous aide à obtenir votre regex correct. Regex101 est un testeur regex en ligne, débogueur avec mise en évidence pour PHP, PCRE, Python, Golang et JavaScript

Data Science Hack # 40 Convertir Liste des listes à LIST

Parfois, les données peuvent prendre la forme d'une liste imbriquée. Par exemple, les données peuvent être des enregistrements de transaction dattes pour un produit particulier. Cependant, vous n'aurez peut-être besoin que dans une seule dimension. Ce hack vous aidera à aplatir la liste des listes en une seule liste.

Data Science Hack # 41 Masquer les déclarations d'impression

Nous utilisons souvent des instructions d'impression à des fins de débogage. Ce hack vous aidera à désactiver les instructions d'impression dans une section particulière du code afin de faciliter le débogage.

Data Science Hack # 42 Split PDF Document Page sur le plan

Ce hack vous aidera à diviser un seul document PDF en plusieurs pages.

Data Science Hack # 43 Fusiter les documents PDF

Ce hack vous aidera à combiner plusieurs documents PDF en un seul document. Ce hack est l'inverse de Hack # 42 Split PDF Document Page en termes

Data Science Hack # 44 Créez un Datagenerator d'image personnalisé dans Keras

Parfois, vous auriez besoin d'une fonctionnalité qui n'est pas directement fournie par IMageDatagenerator de Keras. Vous pouvez facilement créer un emballage autour de lui pour répondre à vos besoins.

Par exemple, votre usecase est que vous avez un modèle d'apprentissage en profondeur multi-entrées comme celui-ci

(c'est-à-dire un réseau de neurones qui prend les entrées de plusieurs sources de données et fait une formation combinée sur ces données), et vous souhaitez que le générateur de données puisse être en mesure de gérer la préparation des données à la volée, vous pouvez créer un wrapper autour de la classe IMageDatagenerator pour donner la sortie requise. Ce cahier explique une solution simple à cette USECase.

Un autre cas d'utilisation pourrait être que vous souhaitez redimensionner les images d'une forme dire 150x150 à une forme 224x224, qui est généralement utilisée par les modèles pré-entraînés, vous pouvez personnaliser le IMAgedatagenerator sans coder votre propre générateur de données à partir de Ground Up (Exemple Notebook).

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-04-16
taille 1.82MB
Provenant de Github

Applications connexes

MMEarth data

2024-11-12
KOMBAT SCIENTIFIQUE

2023-08-14
SCIENCE KOMBAT version chinoise

2023-08-12
application science can bot

2023-05-11
Exploration de données biologiques

2010-03-22
Récupération de données intelligente

2009-06-18

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout

Data Science Hacks

Data Science Hacks, Conseils et astuces

Data Science Hack # 1 - téléchargeur de ressources

Data Science Hack # 2 Pandas s'applique

Data Science Hack # 3 Pandas Boolean Indexation

Data Science Hack # 4 Pandas Pivot Table

Data Science Hack # 5 Pandas Crosstab

Data Science Hack # 6 Pandas Str.Split

Data Science Hack # 7 Extrait des e-mails du texte

Data Science Hack # 8 Distribution normale

Data Science Hack # 9 Supprimer les emojis du texte

Data Science Hack # 10 Méthode du coude pour le classificateur

Data Science Hack # 11 Minmax Scalmer

Data Science Hack # 12 Fonctionnalité Ingénierie pour les séries chronologiques Données

Data Science Hack # 13 Données manuelles pour la régression linéaire

Data Science Hack # 14 Huggingface Tokenisation

Data Science Hack # 15 Diviser les données continues et catégoriques

Data Science Hack # 16 Profilage Pandas

Data Science Hack # 17 Formatage de DataFrame

Data Science Hack # 18 Fonction magique -% Historique

Data Science Hack # 19 HEATMAP sur Pandas DataFrame

Data Science Hack # 20 Plot Confusion Matrix

Data Science Hack # 21 Ipython Interactive Shell

Data Science Hack # 22 Python TQDM

Data Science Hack # 23 Augmentation de l'image

Data Science Hack # 24 Configuration du cahier de Jupyter Dark Jupyter Thème

Data Science Hack # 25 Changer la largeur des cellules dans Jupyter Notebook

Data Science Hack # 26 parse_dates dans read_csv () pour modifier le type de données en datetime

Data Science Hack 27 Partagez le cahier Jupyter à l'aide de NBViewer

Data Science Hack # 28 Plotting Decision Tree

Data Science Hack # 29 Invert Dictionary

Data Science Hack # 30 Diagrammes interactifs en utilisant Plotly

Data Science Hack # 31 Écrivez un fichier Python directement à partir de la cellule de cahier Jupyter

Data Science Hack # 32 Structures de données jolies imprimées

Data Science Hack # 33 Parser Date

Data Science Hack # 34 Sélection des fonctionnalités à l'aide de SelectFromyl

Data Science Hack # 35 Convertir les chaînes en caractères

Data Science Hack # 36 REMIZER Taille de l'image

Data Science Hack # 37 Appliquer des pandas en parallèle

Data Science Hack # 38 Expressions du générateur vs compréhension de la liste

Data Science Hack # 39 Testez votre regex

Data Science Hack # 40 Convertir Liste des listes à LIST

Data Science Hack # 41 Masquer les déclarations d'impression

Data Science Hack # 42 Split PDF Document Page sur le plan

Data Science Hack # 43 Fusiter les documents PDF

Data Science Hack # 44 Créez un Datagenerator d'image personnalisé dans Keras