Engenharia de recursos impressionantes para aprendizado de máquina
Uma lista com curadoria de recursos dedicados a recursos de engenharia para aprendizado de máquina
Manters - Andrei Khobnia
Esta página está licenciada sob Creative Commons Attribution-NonCommercial-Sharealike 3.0 Licença não portada
Por favor, sinta -se à vontade para criar solicitações de tração.
Conteúdo
- Dados numéricos
- Escala
- Ranking
- Quantização e binning
- Transformação da caixa-cox
- Transformação de Yeo-Johnson
- Interações com recursos
- Recursos de agrupamento
- Recursos T-Sne
- Recursos de PCA
- Dados textuais
- Saco de palavras
- Recursos de detecção de frase
- Tfidf
- Incorporação de palavras
- Subpaturing incorporando
- Recursos de padrão
- Recursos de léxico
- Recursos de PDV
- Dados da imagem
- Recursos do algoritmo de visão computacional
- Recursos de estatísticas de imagem
- Recursos de OCR
- Recursos de aprendizado profundo
- Dados categóricos
- Uma codificação quente
- Codificação da contagem
- Encodificação de etiquetas
- Codificação fictícia
- Codificação média
- Hashing
- Dados da série temporal
- Recursos de janela rolante
- Recursos de atraso
- Dados geoespaciais
Dados numéricos
- Entendendo a engenharia de recursos (Parte 1) - Dados numéricos contínuos
Escala
- sklearn.preprocessing.minMaxScaler
- sklearn.preprocessing.standartscaler
Ranking
- Ranking
- scipy.stats.rankdata
Quantização e binning
- Binning de dados
- Bucketing Variáveis contínuas em pandas
- pandas.cat
Transformação da caixa-cox
- scipy.stats.boxcox
-
np.log (x + const)
Transformação de Yeo-Johnson
- Transformação de Yeo-Johnson
Interações com recursos
- FeatureTools
- sklearn.preprocessing.polynomialFeatures
- Divisões
- Outras interações
Recursos de agrupamento
- Como criar novos recursos usando o clustering !!
Recursos T-Sne
- t-sne
- Extração de recursos automáticos com T-Sne
Recursos de PCA
- Análise de componentes principais (PCA)
- sklearn.decomposition.pca
Dados textuais
- Entendendo a engenharia de recursos (Parte 3) - Métodos tradicionais para dados de texto
Saco de palavras
- Modelo de bolsa de palavras
- Uma introdução suave ao modelo de saco de palavras
- sklearn.feature_extraction.text.CountVectorizer
- sklearn.feature_extraction.dictVectorizer
- sklearn.feature_extraction.featurehasher
Recursos de detecção de frase
- Sklearn_api.phrases - Scikit Learn Wrapper for Phrase (Colocation) Detecção
Tfidf
- TF-IDF
- sklearn.feature_extraction.text.tfidfvectorizer
Incorporação de palavras
- Incorporação de palavras
- Luva: vetores globais para representação de palavras
- Gensim: modelos.word2vec - Word2vec incorporados
- FastText
- Word2vec e Word FastText incorporando com gensim
- As incorporações pré -tenhadas lhe dão a vantagem extra?
Subpaturing incorporando
- INCLIMENTOS DE SUBWORAÇÃO PRÉ-TREADOS EM 275 IDIOMOS, baseados na codificação de pares de bytes (BPE)
Recursos de padrão
- Cleartk - Tutorial de extração de recursos
- Expressões regulares
Recursos de léxico
- Nomeado reconhecimento de entidade com LSTM-CNNs bidirecionais (ARXIV: 1511.08308)
Recursos de PDV
- Parte de fala_tagging
- NLTK categorizando e marcando palavras
- Como usar os recursos de POS no Scikit Learn Classfiers
Dados da imagem
Recursos do algoritmo de visão computacional
- Extração de recursos e pesquisa de imagem semelhante com o OpenCV para iniciantes
- OpenCV - Detecção e descrição de recursos
- Pacote SimpleCv.Features
- Módulo de recurso de imagem Scikit
Recursos de estatísticas de imagem
- Módulo ImageStat - travesseiro
Recursos de OCR
- Um invólucro python para o Google Tesseract
Recursos de aprendizado profundo
- Os modelos pré-treinados Keras apresentam extração
- Usando os modelos pré-treinados de Keras para extração de recursos no cluster de imagens
Dados categóricos
- Entendendo a engenharia de recursos (parte 2) - dados categóricos
Uma codificação quente
- Por que um hot codificou dados no aprendizado de máquina?
- Como um Hot Encode Sequence Data in Python
- sklearn.preprocessing.onehotencoder
- Keras - to_categorical
Codificação da contagem
- Engenharia de recursos: codificação da contagem
Encodificação de etiquetas
- Equilização de etiquetas em Scikit-Learn
- Engenharia de recursos: codificação de etiquetas
Codificação fictícia
- Codificação fictícia: como e por quê
- pandas.get_dummies
- Codificação de um hot vs dummy
Codificação média
- Codificação de probabilidade de recursos categóricos
- Python alvo codificando para recursos categóricos
- Adicionando coluna de variação quando a codificação média
Hashing
- Hashing na Wikipedia
- Hashing e extração de recursos no vwpalwabbit
- Hashing em Scikit-Learn
Dados da série temporal
- Extração automática de recursos relevantes de séries temporais
- Engenharia de recursos básicos com dados de séries temporais em Python
Recursos de janela rolante
Recursos de atraso
- Use pandas para atrasar os dados do TimeSeries para examinar as relações causais
Dados geoespaciais
- Engenharia e visualização geoespaciais
- Introdução aos dados geoespaciais usando Python
De volta ao topo