機械学習のための素晴らしい機能エンジニアリング
機械学習のためのエンジニアリング技術を機能させる専用のリソースのキュレーションリスト
メンテナー-Andrei Khobnia
このページは、Creative Commons Attribution-Commercial-Sharealike3.0 Unportedライセンスの下でライセンスされています
プルリクエストを自由に作成してください。
コンテンツ
- 数値データ
- スケーリング
- ランキング
- 量子化とビニング
- ボックスコックス変換
- Yeo-Johnsonの変容
- 特徴の相互作用
- クラスタリング機能
- T-SNE機能
- PCA機能
- テキストデータ
- 言葉の袋
- フレーズ検出機能
- tfidf
- 単語埋め込み
- サブワード埋め込み
- パターン機能
- レキシコン機能
- POS機能
- 画像データ
- コンピュータービジョンアルゴリズム機能
- 画像統計機能
- OCR機能
- 深い学習機能
- カテゴリデータ
- 1つのホットエンコーディング
- カウントエンコーディング
- ラベルエンコーディング
- ダミーエンコーディング
- 平均エンコーディング
- ハッシュ
- 時系列データ
- 地理空間データ
数値データ
- フィーチャエンジニアリングの理解(パート1) - 連続数値データ
スケーリング
- sklearn.preprocessing.minmaxscaler
- sklearn.preprocessing.standartscaler
ランキング
- ランキング
- scipy.stats.rankdata
量子化とビニング
- データビニング
- パンダの連続変数をバケティングします
- pandas.cat
ボックスコックス変換
- scipy.stats.boxcox
-
np.log (x + const)
Yeo-Johnsonの変容
特徴の相互作用
- featuretools
- sklearn.preprocessing.polynomialfeatures
- 部門
- その他の相互作用
クラスタリング機能
T-SNE機能
PCA機能
- 主成分分析(PCA)
- sklearn.decomposition.pca
テキストデータ
- フィーチャーエンジニアリングの理解(パート3) - テキストデータの従来の方法
言葉の袋
- ワードバッグモデル
- バッグオブワードモデルの穏やかな紹介
- sklearn.feature_extraction.text.countvectorizer
- sklearn.feature_extraction.dictvectorizer
- sklearn.feature_extraction.featurehasher
フレーズ検出機能
- sklearn_api.phrases - scikitフレーズ(コロケーション)検出のためのラッパーを学習します
tfidf
- TF-IDF
- sklearn.feature_extraction.text.tfidfvectorizer
単語埋め込み
- 単語埋め込み
- グローブ:単語表現のグローバルベクター
- gensim:models.word2vec - word2vec埋め込み
- fastText
- word2vecおよびfasttext word embedding with gensim
- 前処理された埋め込みはあなたに余分なエッジを与えますか?
サブワード埋め込み
- バイトペアエンコーディング(BPE)に基づいて、275の言語での事前に訓練されたサブワード埋め込み
パターン機能
レキシコン機能
- 双方向LSTM-CNNSによる名前のエンティティ認識(Arxiv:1511.08308)
POS機能
- Speech_Taggingの一部
- 単語の分類とタグ付けのNLTK
- SCIKIT学習クラスフィアでPOS機能を使用する方法
画像データ
コンピュータービジョンアルゴリズム機能
- 初心者向けのOpenCVを使用した機能抽出と同様の画像検索
- OpenCV-機能の検出と説明
- SimpleCv.Featuresパッケージ
- Scikit-image機能モジュール
画像統計機能
OCR機能
- Google TesseractのPythonラッパー
深い学習機能
- ケラスの事前訓練モデルは、抽出を特徴としています
- 画像クラスタリングで機能抽出のためにケラスの事前訓練モデルを使用する
カテゴリデータ
- フィーチャーエンジニアリングの理解(パート2) - カテゴリデータ
1つのホットエンコーディング
- なぜ機械学習でワンホットエンコードデータをエンコードするのですか?
- Pythonの1つのホットエンコードシーケンスデータへの方法
- sklearn.preprocessing.onehotencoder
- Keras -to_categorical
カウントエンコーディング
ラベルエンコーディング
- Scikit-Learnでのラベルエンコード
- 機能エンジニアリング:ラベルエンコーディング
ダミーエンコーディング
- ダミーコーディング:方法と理由
- pandas.get_dummies
- ワンホットvsダミーエンコーディング
平均エンコーディング
- カテゴリ機能の尤度エンコード
- カテゴリ機能のためのPythonターゲットエンコード
- 平均エンコーディング時に分散列を追加します
ハッシュ
- Wikipediaの機能ハッシュ
- Vowpalwabbitのハッシュと抽出を特徴
- Scikit-Learnの機能ハッシュ
時系列データ
- 時系列からの関連機能の自動抽出
- Pythonの時系列データを備えた基本機能エンジニアリング
ローリングウィンドウ機能
ラグ機能
- 因果関係を調べるために、Pandasを使用してTimeseriesデータを遅らせます
地理空間データ
- 地理空間特徴エンジニアリングと視覚化
- Pythonを使用した地理空間データの紹介
トップに戻ります