機器學習的很棒的功能工程
精心策劃的資源清單,專門用於機器學習的特徵工程技術
維護者-Andrei Khobnia
此頁面在創意共享下獲得許可
請隨時創建拉動請求。
內容
- 數字數據
- 縮放
- 排行
- 量化和嵌套
- 盒子轉換
- Yeo-Johnson的轉型
- 特徵互動
- 聚類功能
- T-SNE功能
- PCA功能
- 文本數據
- 一袋單詞
- 短語檢測特徵
- TFIDF
- 單詞嵌入
- 子字嵌入
- 圖案功能
- 詞典功能
- POS功能
- 圖像數據
- 計算機視覺算法功能
- 圖像統計功能
- OCR功能
- 深度學習功能
- 分類數據
- 時間序列數據
- 地理空間數據
數字數據
縮放
- sklearn.preprocessing.minmaxscaler
- sklearn.preprocessing.standartscaler
排行
量化和嵌套
盒子轉換
- scipy.stats.boxcox
-
np.log (x + const)
Yeo-Johnson的轉型
特徵互動
- 特色
- sklearn.preprocessing.PolyNomialFeatures
- 部門
- 其他互動
聚類功能
T-SNE功能
PCA功能
- 主成分分析(PCA)
- sklearn.decomposition.pca
文本數據
一袋單詞
- 單袋型號
- 輕柔地介紹了詞袋模型
- sklearn.feature_extraction.text.countvectorizer
- sklearn.feature_extraction.dictVectorizer
- sklearn.feature_extraction.featurehasher
短語檢測特徵
- Sklearn_api.phrases - Scikit學習短語包裝器(合同)檢測
TFIDF
- TF-IDF
- sklearn.feature_extraction.text.tfidfvectorizer
單詞嵌入
- 單詞嵌入
- 手套:單詞表示的全局向量
- Gensim:model.Word2Vec - Word2Vec嵌入
- fastText
- word2vec和fastText Word與Gensim嵌入
- 預處理的嵌入會給您帶來額外的優勢嗎?
子字嵌入
圖案功能
詞典功能
- 具有雙向LSTM-CNN的命名實體識別(ARXIV:1511.08308)
POS功能
- Speech_tagging
- NLTK對單詞進行分類和標記
- 如何在Scikit學習ClassFiers中使用POS功能
圖像數據
計算機視覺算法功能
- 特徵提取和與新手的OpenCV相似的圖像搜索
- OPENCV-功能檢測和描述
- SimpleCV.Features軟件包
- Scikit-image特徵模塊
圖像統計功能
OCR功能
- Google Tesseract的Python包裝紙
深度學習功能
- KERAS預訓練的模型具有提取
- 使用KERAS的預訓練模型在圖像群集中進行特徵提取
分類數據
一個熱編碼
- 為什麼在機器學習中進行單速編碼數據?
- 如何在Python中進行一個熱編碼序列數據
- sklearn.preprocessing.onehotencoder
- keras -to_categorical
計數編碼
標籤編碼
- 在Scikit-Learn中編碼的標籤
- 功能工程:標籤編碼
虛擬編碼
- 虛擬編碼:方式和原因
- pandas.get_dummies
- 單速與虛擬編碼
平均編碼
- 分類特徵的可能性編碼
- Python目標編碼用於分類特徵
- 平均編碼時添加差異列
哈希
- Wikipedia上的功能哈希
- vowpalwabbit中的特徵哈希和提取
- Scikit-Learn的功能哈希
時間序列數據
- 從時間序列中自動提取相關功能
- Python中的時間序列數據的基本功能工程
滾動窗口功能
滯後功能
地理空間數據
- 地理空間特徵工程和可視化
- 使用Python介紹地理空間數據
回到頂部