Fantastisches Feature Engineering für maschinelles Lernen
Eine kuratierte Liste von Ressourcen, die sich der Funktionsweise technische Techniken für maschinelles Lernen widmen,
Betreuer - Andrei Khobnia
Diese Seite ist unter Creative Commons Attribution-Noncommercial-Sharealike 3.0 Unported Lizenz lizenziert
Bitte zögern Sie nicht, Pull -Anfragen zu erstellen.
Inhalt
- Numerische Daten
- Skalierung
- Rang
- Quantisierung und Binning
- Box-Cox-Transformation
- Yeo-Johnson-Transformation
- Feature -Interaktionen
- Clustering -Funktionen
- T-Sne-Funktionen
- PCA -Funktionen
- Textdaten
- Wörter Tasche
- Ausdruckerkennungsmerkmale
- Tfidf
- Worteinbettungen
- Subword -Einbettungen
- Mustermerkmale
- Lexikonmerkmale
- POS -Funktionen
- Bilddaten
- Computer Vision Algorithmus Funktionen
- Merkmale der Bildstatistik
- OCR -Funktionen
- Deep Learning Merkmale
- Kategoriale Daten
- Eine heiße Kodierung
- Count -Codierung
- Etikettencodierung
- Dummy -Codierung
- Mittlere Codierung
- Hashing
- Zeitreihendaten
- Rollfenster
- Verzögerungsmerkmale
- Geospatial -Daten
Numerische Daten
- Verständnis für Feature Engineering (Teil 1) - kontinuierliche numerische Daten
Skalierung
- sklearn.preprocessing.minmaxscaler
- sklearn.preprocessing.standArtscaler
Rang
- Rang
- scipy.stats.rankdata
Quantisierung und Binning
- Daten Binning
- Eimering kontinuierliche Variablen in Pandas
- pandas.cat
Box-Cox-Transformation
- scipy.stats.boxcox
-
np.log (x + const)
Yeo-Johnson-Transformation
- Yeo-Johnson-Transformation
Feature -Interaktionen
- Featuretools
- sklearn.preprocessing.polynomialFeatures
- Abteilungen
- Andere Interaktionen
Clustering -Funktionen
- So erstellen Sie neue Funktionen mit Clustering !!
T-Sne-Funktionen
- T-Sne
- Automatische Feature-Extraktion mit T-Sne
PCA -Funktionen
- Hauptkomponentenanalyse (PCA)
- sklearn.decomposition.pca
Textdaten
- Verständnis der Feature Engineering (Teil 3) - Traditionelle Methoden für Textdaten
Wörter Tasche
- Modell der Wörter
- Eine sanfte Einführung in das Modell der Wörtertasche
- sklearn.feature_extraction.text.countVectorizer
- sklearn.feature_extraction.dictVectorizer
- sklearn.feature_extraction.featurehasher
Ausdruckerkennungsmerkmale
- sklearn_api.phras - scikit lernpeper for Phrase (Kollokation) Erkennung
Tfidf
- tf-idf
- sklearn.feature_extraction.text.tfidfVectorizer
Worteinbettungen
- Worteinbettung
- Handschuh: Globale Vektoren für Wortrepräsentation
- Gensim: models.word2VEC - Word2VEC -Einbettungen
- FastText
- Word2VEC und FastText -Wort einbetten mit Gensim ein
- Ermöglichen Ihnen die zusätzlichen Rande?
Subword -Einbettungen
- Vorausgebildete Subword-Einbettungen in 275 Sprachen, basierend auf Byte-Pair-Codierung (BPE)
Mustermerkmale
- Cleartk - Feature Extraction Tutorial
- Reguläre Ausdrücke
Lexikonmerkmale
- Genannte Entitätserkennung mit bidirektionalem LSTM-CNNS (ARXIV: 1511.08308)
POS -Funktionen
- Teil des Sprachs_Tagging
- NLTK kategorisieren und markieren Wörter
- So verwenden Sie POS -Funktionen in Scikit Learn -Klassenfiers
Bilddaten
Computer Vision Algorithmus Funktionen
- Feature -Extraktion und ähnliche Bildsuche mit OpenCV für Neulinge
- OpenCV - Merkmalserkennung und Beschreibung
- SimpleCv.Features -Paket
- Scikit-Image-Feature-Modul
Merkmale der Bildstatistik
- ImageStat -Modul - Kissen
OCR -Funktionen
- Ein Python -Wrapper für Google Tesseract
Deep Learning Merkmale
- Keras Vorausgebildete Modelle Feature Extraktion
- Verwenden Sie die vorgebrachten Modelle von Keras für die Feature-Extraktion im Bildclustering
Kategoriale Daten
- Verständnis für Feature Engineering (Teil 2) - Kategoriale Daten
Eine heiße Kodierung
- Warum in One-Hot-Encodieren von Daten im maschinellen Lernen?
- Wie zu einer Hot -Codierung von Sequenzdaten in Python
- sklearn.preprocessing.onehotenCoder
- Keras - to_categorical
Count -Codierung
- Feature Engineering: Count -Codierung
Etikettencodierung
- Etikettencodierung in Scikit-Learn
- Feature Engineering: Etikettencodierung
Dummy -Codierung
- Dummy -Codierung: Wie und warum
- pandas.get_dummies
- One-HOT vs Dummy-Codierung
Mittlere Codierung
- Wahrscheinlichkeitscodierung kategorischer Merkmale
- Python -Zielcodierung für kategoriale Merkmale
- Hinzufügen von Varianzspalte beim Mittelwertcodieren
Hashing
- Hashing auf Wikipedia
- Hashing und Extraktion in Vowpalwabbit enthalten
- Hashing in Scikit-Learn
Zeitreihendaten
- Automatische Extraktion relevanter Funktionen aus Zeitreihen
- Grundlegende Feature Engineering mit Zeitreihendaten in Python
Rollfenster
Verzögerungsmerkmale
- Verwenden Sie Pandas, um Ihre Timeseries -Daten zu verzögern, um kausale Beziehungen zu untersuchen
Geospatial -Daten
- Geospatial Feature Engineering und Visualisierung
- Intro in Geospatial -Daten mit Python
Zurück nach oben