머신 러닝을위한 멋진 기능 엔지니어링
기계 학습을위한 엔지니어링 기술 기능 전용 리소스 목록
관리자 - Andrei Khobnia
이 페이지는 Creative Commons Attribution-Noncommercial-Sharealike 3.0 Unported License에 따라 라이센스가 부여됩니다.
풀 요청을 자유롭게 작성하십시오.
내용물
- 숫자 데이터
- 스케일링
- 순위
- 양자화 및 비닝
- 박스 콕스 변환
- Yeo-Johnson 변환
- 기능 상호 작용
- 클러스터링 기능
- t-sne 기능
- PCA 기능
- 텍스트 데이터
- 단어의 가방
- 구절 탐지 기능
- TFIDF
- 단어 임베딩
- 서브 워드 임베딩
- 패턴 기능
- 어휘집 기능
- POS 기능
- 이미지 데이터
- 컴퓨터 비전 알고리즘 기능
- 이미지 통계 기능
- OCR 기능
- 딥 러닝 기능
- 범주 형 데이터
- 하나의 뜨거운 인코딩
- 카운트 인코딩
- 레이블 인코딩
- 더미 인코딩
- 평균 인코딩
- 해싱
- 시계열 데이터
- 지리 공간 데이터
숫자 데이터
- 기능 엔지니어링 이해 (1 부) - 연속 숫자 데이터
스케일링
- sklearn.preprocessing.minmaxscaler
- Sklearn.proprocessing.standArtScaler
순위
양자화 및 비닝
- 데이터 비닝
- 팬더의 연속 변수 버킷
- pandas.cat
박스 콕스 변환
- scipy.stats.boxcox
-
np.log (x + const)
Yeo-Johnson 변환
기능 상호 작용
- FeatureTools
- Sklearn.preprocessing.polynomialfeatures
- 부서
- 다른 상호 작용
클러스터링 기능
- 클러스터링을 사용하여 새로운 기능을 만드는 방법 !!
t-sne 기능
PCA 기능
- 주요 구성 요소 분석 (PCA)
- sklearn.decomposition.pca
텍스트 데이터
- 기능 공학 이해 (3 부) - 텍스트 데이터를위한 전통적인 방법
단어의 가방
- 단어의 가방 모델
- 단어의 가방 모델에 대한 부드러운 소개
- sklearn.feature_extraction.text.countVectorizer
- sklearn.feature_extraction.dictvectorizer
- sklearn.feature_extraction.featurehasher
구절 탐지 기능
- skearn_api.phrases - Scikit은 문구 (Collocation) 탐지를위한 래퍼를 배웁니다
TFIDF
- TF-IDF
- sklearn.feature_extraction.text.tfidfvectorizer
단어 임베딩
- 단어 임베딩
- 장갑 : 단어 표현을위한 글로벌 벡터
- Gensim : Models.word2vec - Word2Vec 임베드
- FastText
- Word2Vec 및 FastText Word가 Gensim을 포함합니다
- 사전 치료 된 임베딩은 당신에게 여분의 우위를 제공합니까?
서브 워드 임베딩
- BYTE-PAIR 인코딩 (BPE)을 기반으로 275 개 언어로 미리 훈련 된 하위 단어 임베딩
패턴 기능
어휘집 기능
- 양방향 LSTM-CNNS로 명명 된 엔티티 인식 (ARXIV : 1511.08308)
POS 기능
- part-of-speech_tagging
- NLTK 단어를 분류하고 태그로 표시합니다
- Scikit에서 POS 기능을 사용하는 방법 학급 학습
이미지 데이터
컴퓨터 비전 알고리즘 기능
- 초보자를위한 OpenCV를 사용한 기능 추출 및 유사한 이미지 검색
- OpenCV- 기능 감지 및 설명
- Simplecv.Features 패키지
- Scikit-Image 기능 모듈
이미지 통계 기능
OCR 기능
- Google TesserAct 용 파이썬 래퍼
딥 러닝 기능
- Keras 사전 훈련 된 모델에는 추출이 특징입니다
- 이미지 클러스터링에서 기능 추출을 위해 Keras의 사전 훈련 된 모델 사용
범주 형 데이터
- 기능 엔지니어링 이해 (2 부) - 범주 형 데이터
하나의 뜨거운 인코딩
- 기계 학습에서 데이터를 인코딩하는 이유는 무엇입니까?
- 파이썬에서 시퀀스 데이터를 하나의 핫 인코딩하는 방법
- Sklearn.proprocessing.onehotencoder
- keras -to_categorical
카운트 인코딩
레이블 인코딩
- Scikit-Learn의 레이블 인코딩
- 기능 엔지니어링 : 라벨 인코딩
더미 인코딩
- 더미 코딩 : 방법과 이유
- pandas.get_dummies
- 한 가지 대 더미 인코딩
평균 인코딩
- 범주 형 특징의 가능성 인코딩
- 범주 형 기능을위한 파이썬 대상 인코딩
- 평균 인코딩시 분산 열 추가
해싱
- Wikipedia의 기능 해싱
- Vowpalwabbit의 기능 해싱 및 추출 기능
- Scikit-Learn의 기능 해싱
시계열 데이터
- 시계열에서 관련 기능의 자동 추출
- 파이썬의 시계열 데이터를 갖춘 기본 기능 엔지니어링
롤링 창 기능
지연 기능
- 인과 관계를 검사하기 위해 팬더를 사용하여 Timesseries 데이터를 지연시킵니다.
지리 공간 데이터
- 지리 공간 기능 엔지니어링 및 시각화
- 파이썬을 사용하여 지리 공간 데이터 소개
위로 돌아갑니다