机器学习的很棒的功能工程
精心策划的资源清单,专门用于机器学习的特征工程技术
维护者-Andrei Khobnia
此页面在创意共享下获得许可
请随时创建拉动请求。
内容
- 数字数据
- 缩放
- 排行
- 量化和嵌套
- 盒子转换
- Yeo-Johnson的转型
- 特征互动
- 聚类功能
- T-SNE功能
- PCA功能
- 文本数据
- 一袋单词
- 短语检测特征
- TFIDF
- 单词嵌入
- 子字嵌入
- 图案功能
- 词典功能
- POS功能
- 图像数据
- 计算机视觉算法功能
- 图像统计功能
- OCR功能
- 深度学习功能
- 分类数据
- 时间序列数据
- 地理空间数据
数字数据
缩放
- sklearn.preprocessing.minmaxscaler
- sklearn.preprocessing.standartscaler
排行
量化和嵌套
盒子转换
- scipy.stats.boxcox
-
np.log (x + const)
Yeo-Johnson的转型
特征互动
- 特色
- sklearn.preprocessing.PolyNomialFeatures
- 部门
- 其他互动
聚类功能
T-SNE功能
PCA功能
- 主成分分析(PCA)
- sklearn.decomposition.pca
文本数据
一袋单词
- 单袋型号
- 轻柔地介绍了词袋模型
- sklearn.feature_extraction.text.countvectorizer
- sklearn.feature_extraction.dictVectorizer
- sklearn.feature_extraction.featurehasher
短语检测特征
- Sklearn_api.phrases - Scikit学习短语包装器(合同)检测
TFIDF
- TF-IDF
- sklearn.feature_extraction.text.tfidfvectorizer
单词嵌入
- 单词嵌入
- 手套:单词表示的全局向量
- Gensim:model.Word2Vec - Word2Vec嵌入
- fastText
- word2vec和fastText Word与Gensim嵌入
- 预处理的嵌入会给您带来额外的优势吗?
子字嵌入
图案功能
词典功能
- 具有双向LSTM-CNN的命名实体识别(ARXIV:1511.08308)
POS功能
- Speech_tagging
- NLTK对单词进行分类和标记
- 如何在Scikit学习ClassFiers中使用POS功能
图像数据
计算机视觉算法功能
- 特征提取和与新手的OpenCV相似的图像搜索
- OPENCV-功能检测和描述
- SimpleCV.Features软件包
- Scikit-image特征模块
图像统计功能
OCR功能
- Google Tesseract的Python包装纸
深度学习功能
- KERAS预训练的模型具有提取
- 使用KERAS的预训练模型在图像群集中进行特征提取
分类数据
一个热编码
- 为什么在机器学习中进行单速编码数据?
- 如何在Python中进行一个热编码序列数据
- sklearn.preprocessing.onehotencoder
- keras -to_categorical
计数编码
标签编码
- 在Scikit-Learn中编码的标签
- 功能工程:标签编码
虚拟编码
- 虚拟编码:方式和原因
- pandas.get_dummies
- 单速与虚拟编码
平均编码
- 分类特征的可能性编码
- Python目标编码用于分类特征
- 平均编码时添加差异列
哈希
- Wikipedia上的功能哈希
- vowpalwabbit中的特征哈希和提取
- Scikit-Learn的功能哈希
时间序列数据
- 从时间序列中自动提取相关功能
- Python中的时间序列数据的基本功能工程
滚动窗口功能
滞后功能
地理空间数据
- 地理空间特征工程和可视化
- 使用Python介绍地理空间数据
回到顶部