Awesome Feature Engineering pour l'apprentissage automatique
Une liste organisée de ressources dédiées aux techniques d'ingénierie pour l'apprentissage automatique
RETERNIERS - Andrei Khobnia
Cette page est sous licence sous Creative Commons Attribution-Noncommercial-Sharealike 3.0 Licence Unported
N'hésitez pas à créer des demandes de traction.
Contenu
- Données numériques
- Éclatement
- Classement
- Quantification et incorporation
- Transformation en box-cox
- Transformation Yeo-Johnson
- Interactions de caractéristiques
- Fonctionnalités de regroupement
- Fonctions T-SNE
- Fonctionnalités PCA
- Données textuelles
- Sac de mots
- Caractéristiques de détection des phrases
- Tfidf
- Incorporation de mots
- Intégration de sous-mots
- Caractéristiques du motif
- Caractéristiques du lexique
- Caractéristiques de point de vente
- Données d'image
- Fonctionnalités d'algorithme de vision par ordinateur
- Caractéristiques des statistiques d'image
- Caractéristiques OCR
- Caractéristiques d'apprentissage en profondeur
- Données catégoriques
- Un encodage chaud
- Compter l'encodage
- Encodage d'étiquette
- Encodage factice
- Encodage moyen
- Hachage
- Données de séries chronologiques
- Caractéristiques de la fenêtre roulante
- Caractéristiques à la traîne
- Données géospatiales
Données numériques
- Comprendre l'ingénierie des fonctionnalités (partie 1) - données numériques continues
Éclatement
- sklearn.preprocessing.minmaxscaler
- sklearn.preprocessing.standartscaler
Classement
- Classement
- scipy.stats.Rankdata
Quantification et incorporation
- Coubelle de données
- Sauffement des variables continues chez les pandas
- pandas.cat
Transformation en box-cox
- scipy.stats.boxcox
-
np.log (x + const)
Transformation Yeo-Johnson
- Transformation Yeo-Johnson
Interactions de caractéristiques
- Featuretools
- sklearn.preprocessing.polynomialfeures
- Divisions
- Autres interactions
Fonctionnalités de regroupement
- Comment créer de nouvelles fonctionnalités en utilisant le clustering !!
Fonctions T-SNE
- t-sne
- Extraction automatique des fonctionnalités avec T-SNE
Fonctionnalités PCA
- Analyse des composants principaux (PCA)
- sklearn.decomposition.pca
Données textuelles
- Comprendre l'ingénierie des fonctionnalités (partie 3) - Méthodes traditionnelles pour les données de texte
Sac de mots
- Modèle de sac de mots
- Une douce introduction au modèle du sac de mots
- sklearn.feature_extraction.text.Countvectorzer
- sklearn.feature_extraction.dictvectorzer
- sklearn.feature_extraction.feturehasher
Caractéristiques de détection des phrases
- sklearn_api.phrases - Scikit Learn Wrapper pour la détection de phrase (collocation)
Tfidf
- tf-idf
- sklearn.feature_extraction.text.tfidfvectorizer
Incorporation de mots
- Incorporation de mots
- Gant: vecteurs mondiaux pour la représentation des mots
- Gensim: modèles.Word2Vec - Word2Vec Embeddings
- texte rapide
- Word2Vec et FastText Word incorpore avec gensim
- Les intégres pré-entraînés vous donnent-ils le bord supplémentaire?
Intégration de sous-mots
- Intégration de sous-mots pré-formée dans 275 langues, basée sur le codage des paires d'octets (BPE)
Caractéristiques du motif
- ClearTk - Tutoriel d'extraction des fonctionnalités
- Expressions régulières
Caractéristiques du lexique
- Reconnaissance de l'entité nommée avec LSTM-CNN bidirectionnelle (Arxiv: 1511.08308)
Caractéristiques de point de vente
- Partie de dispection_tagging
- NLTK catégoriser et marquer des mots
- Comment utiliser les fonctionnalités POS dans Scikit Learn Classfiers
Données d'image
Fonctionnalités d'algorithme de vision par ordinateur
- Extraction de fonctionnalités et recherche d'images similaire avec OpenCV pour les débutants
- OpenCV - Détection et description des fonctionnalités
- Package Simplecv.Features
- Module de fonctionnalité Scikit-Image
Caractéristiques des statistiques d'image
- Module ImageStat - oreiller
Caractéristiques OCR
- Un wrapper python pour google Tesseract
Caractéristiques d'apprentissage en profondeur
- Keras Les modèles pré-formés sont des fonctionnalités d'extraction
- Utilisation de modèles pré-formés de Keras pour l'extraction des fonctionnalités dans le clustering d'images
Données catégoriques
- Comprendre l'ingénierie des fonctionnalités (partie 2) - données catégorielles
Un encodage chaud
- Pourquoi coder les données à un hot dans l'apprentissage automatique?
- Comment un cocodage chaud des données de séquence en python
- sklearn.preprocessing.onehotencoder
- Keras - to_categorique
Compter l'encodage
- Ingénierie des caractéristiques: codage de nombre
Encodage d'étiquette
- Encodage d'étiquette dans Scikit-Learn
- Ingénierie des fonctionnalités: codage d'étiquette
Encodage factice
- Codage factice: le comment et pourquoi
- pandas.get_dummies
- Encodage factice à un hot vs
Encodage moyen
- Encodage de vraisemblance des caractéristiques catégorielles
- Encodage cible Python pour les fonctionnalités catégorielles
- Ajout de la colonne de variance lors du codage moyen
Hachage
- Hangage de fonctionnalité sur Wikipedia
- Hachage et extraction de fonctionnalités dans Vowpalwabbit
- Hachage de fonctionnalités dans Scikit-Learn
Données de séries chronologiques
- Extraction automatique des fonctionnalités pertinentes de la série chronologique
- Ingénierie des fonctionnalités de base avec des données de séries chronologiques dans Python
Caractéristiques de la fenêtre roulante
Caractéristiques à la traîne
- Utilisez des pandas pour traîner vos données de séquence de temps afin d'examiner les relations causales
Données géospatiales
- Ingénierie et visualisation des fonctionnalités géospatiales
- Introduction aux données géospatiales à l'aide de python
Retour en haut