smote_variantsダウンロードsmote_variantsソースコードのダウンロード

github

 _ _ _
 ___ _ __ ___ ___ | | _ ___ __ __ __ _ _ __（_）__ _ ___ | | _ ___
/ __ || '_ `_  / _  | __ | / _  _____  / // _` || '__ || | / _` || '_  | __ |/ __ |
 __  | | | | | || （_）|| | _ | __ /| _____ |  v /| （_ | || | | ||（_ | || | || | _  __ 
| ___/| _ | | _ | | _ |  ___/  __ |  ___ |  _/  __、_ || _ | | _ |  __、_ || _ | | _ |  __ || ___/

不均衡な学習のためのSmote-Variants

導入

このパッケージは、合成少数派オーバーサンプリング技術（SMOTE）の86のバリエーションを実装しています。実装に加えて、簡単に使用できるモデル選択フレームワークが提供され、目に見えないデータセットでのオーバーサンプリング技術の迅速な評価が可能になります。

実装されたテクニック：[smote]、[smote_tomeklinks]、[smote_enn]、[borderline_smote1]、[borderline_smote2]、[adasyn]、[ahc]、[lle_smote]、[distany_smote]、[smmo]、[polynom_fit_smote]、[stefanowski ]、[adoms]、[safe_level_smote]、[msmote]、[de_oversampling]、[smobd]、[sundo]、[msyn]、[svm_balance]、[trim_smote]、[smote_rsb]、[prowsyn]、[slgraph_smote]、 [nrsboundary_smote]、[lvq_smote]、[soi_cj]、[rose]、[smote_out]、[smote_cosine]、[selected_smote]、[ln_smote]、[mwmote]、[pdfos]、[ipade_id]、[rwo_sampling]、[neater ]、[deago]、[gazzah]、[mct]、[adg]、[smote_ipf]、[kerneladasyn]、[mot2ld]、[v_synth]、[oups]、[smote_d]、[smote_pso]、[cure_smote]、[cure_smote]、 [somo]、[isomap_hybrid]、[ce_smote]、[edge_det_smote]、[cbso]、[e_smote]、[dbsmote]、[asmobd]、[assembled_smote]、[sdsmote]、[dsmote]、[dsmote]、[g_smote]、[nt_smote] ]、[lee]、[spy]、[smote_psobat]、[mdo]、[random_smote]、[ismote]、[vis_rst]、[gasmote]、[a_suwo]、[smote_frst_2t]、[and_smote]、[nras]、[nras]、[smote_frst_2t]、 [amsco]、[sso]、[ndo_sampling]、[dsrbf]、[gaussian_smote]、[kmeans_smote]、[suprided_smote]、[sn_smote]、[ccr]、[ans]、[cluster_smote]、[symprod]、[smotewbbbbbbbb ]

比較と評価

実装されたすべての手法の詳細な比較と評価については、link_to_comparison_paperを参照してください

引用

このパッケージを調査で使用する場合は、以下の論文を引用することを検討してください。

パッケージを説明するプリプリントlink_to_package_paperを参照してください

パッケージ用のbibtex：

 @article { smote-variants ,
  author = { Gy"orgy Kov'acs } ,
  title = { smote-variants: a Python Implementation of 85 Minority Oversampling Techniques } ,
  journal = { Neurocomputing } ,
  note = { (IF-2019=4.07) } ,
  volume = { 366 } ,
  pages = { 352--354 } ,
  year = { 2019 } ,
  group = { journal } ,
  code = { https://github.com/analyticalmindsltd/smote_variants } ,
  doi = { 10.1016/j.neucom.2019.06.100 }
}

比較研究の前リントについては、link_to_evaluation_paperを参照してください

比較と評価のためのbibtex：

 @article { smote-comparison ,
  author = { Gy"orgy Kov'acs } ,
  title = { An empirical comparison and evaluation of minority oversampling techniques on a large number of imbalanced datasets } ,
  journal = { Applied Soft Computing } ,
  note = { (IF-2019=4.873) } ,
  volume = { 83 } ,
  pages = { 105662 } ,
  year = { 2019 } ,
  link = { https://www.sciencedirect.com/science/article/pii/S1568494619304429 } ,
  group = { journal } ,
  code = { https://github.com/analyticalmindsltd/smote_variants } ,
  doi = { 10.1016/j.asoc.2019.105662 }
}

インストール

パッケージは通常の方法でGitHubからクローニングでき、最新の安定したバージョンもPypiリポジトリで入手できます。

pip install smote-variants

ドキュメント

詳細なドキュメントについては、http：//smote-variants.readthedocs.ioを参照してください。
YouTubeチュートリアルについては、https://www.youtube.com/watch?v=GSK7AKQPM60を確認してください

ベストプラクティス

正規化/標準化/スケーリング/機能の選択

オーバーサンプリング手法のほとんどは、属性によって暗示されるユークリッド空間で動作します。したがって、属性を適切に正規化/拡張することが非常に重要です。属性の重要性に関する知識がないため、正規化/標準化は最初の試みです。ブートストラップ分類からのドメインの知識または属性の重要性があるため、その重要性に応じた属性範囲のスケーリングも合理的です。あるいは、機能サブセットの選択は、最も適切なサブスペースでのオーバーサンプリング作業により、結果を改善する可能性もあります。

生成されるサンプルの数のモデル選択

オーバーサンプリング後の分類は、生成される少数サンプルの数に非常に敏感です。データセットのバランスはめったに正しい選択ではありません。これは、決定境界の近くの正と負のサンプルの密度がほぼ同じであれば、ほとんどの分類器が最も効率的に動作するためです。ポジティブクラスとネガティブクラスのマニホールドがほぼ同じサイズを持っていない場合、データセットのバランスをとることはこれを達成できません。さらに、特定の地域では、状況を復活させることさえできます。少数派クラスの多様体が多数派クラスの多様体よりもはるかに小さい場合、バランスは決定境界に沿って地域環境の少数派クラスを多数派に変えます。

解決策は、生成されるサンプルの数にモデル選択を適用することです。 `smote-variants`パッケージに実装されているほぼすべての手法には、 `proportion`と呼ばれるパラメーターがあります。このパラメーターは、生成するサンプルの数、つまり生成された少数サンプルの数が`proportion*(N_maj - N_min)`です。つまり、比例パラメーターを1に設定すると、データセットのバランスをとることが制御されます。 `proportion` = 0.1、0.2、0.5、1.0、2.0、5.0のような範囲の相互検証モデル選択を実行することを強くお勧めします。

サンプルの使用

バイナリオーバーサンプリング

 import smote_variants as sv
import imbalanced_databases as imbd

dataset = imbd . load_iris0 ()
X , y = dataset [ 'data' ], dataset [ 'target' ]

oversampler = sv . distance_SMOTE ()

# X_samp and y_samp contain the oversampled dataset
X_samp , y_samp = oversampler . sample ( X , y )

マルチクラスオーバーサンプリング

 import smote_variants as sv
import sklearn . datasets as datasets

dataset = datasets . load_wine ()
X , y = dataset [ 'data' ], dataset [ 'target' ]

oversampler = sv . MulticlassOversampling ( oversampler = 'distance_SMOTE' ,
                                      oversampler_params = { 'random_state' : 5 })

# X_samp and y_samp contain the oversampled dataset
X_samp , y_samp = oversampler . sample ( X , y )

最高のオーバーサンプラーの選択

 from sklearn . neighbors import KNeighborsClassifier
from sklearn . tree import DecisionTreeClassifier
import smote_variants as sv
import sklearn . datasets as datasets

dataset = datasets . load_breast_cancer ()

dataset = { 'data' : dataset [ 'data' ],
          'target' : dataset [ 'target' ],
          'name' : 'breast_cancer' }

classifiers = [( 'sklearn.neighbors' , 'KNeighborsClassifier' , {}),
              ( 'sklearn.tree' , 'DecisionTreeClassifier' , {})]

oversamplers = sv . queries . get_all_oversamplers ( n_quickest = 2 )

os_params = sv . queries . generate_parameter_combinations ( oversamplers ,
                                                      n_max_comb = 2 )

# samp_obj and cl_obj contain the oversampling and classifier objects which give the
# best performance together
samp_obj , cl_obj = sv . evaluation . model_selection ( dataset = dataset ,
                                                oversamplers = os_params ,
                                                classifiers = classifiers ,
                                                validator_params = { 'n_splits' : 2 ,
                                                                  'n_repeats' : 1 },
                                                n_jobs = 5 )

# training the best techniques using the entire dataset
X_samp , y_samp = samp_obj . sample ( dataset [ 'data' ],
                                dataset [ 'target' ])
cl_obj . fit ( X_samp , y_samp )

Sklearnパイプラインとの統合

 import smote_variants as sv
import imblearn . datasets as imb_datasets

from sklearn . model_selection import train_test_split , GridSearchCV
from sklearn . pipeline import Pipeline
from sklearn . preprocessing import StandardScaler
from sklearn . neighbors import KNeighborsClassifier

libras = imb_datasets . fetch_datasets ()[ 'libras_move' ]
X , y = libras [ 'data' ], libras [ 'target' ]

oversampler = ( 'smote_variants' , 'MulticlassOversampling' ,
                { 'oversampler' : 'distance_SMOTE' , 'oversampler_params' : {}})

classifier = ( 'sklearn.neighbors' , 'KNeighborsClassifier' , {})

# Constructing a pipeline which contains oversampling and classification
# as the last step.
model = Pipeline ([( 'scale' , StandardScaler ()),
                ( 'clf' , sv . classifiers . OversamplingClassifier ( oversampler , classifier ))])

model . fit ( X , y )

Sklearnグリッド検索との統合

 import smote_variants as sv
import imblearn . datasets as imb_datasets

from sklearn . model_selection import train_test_split , GridSearchCV
from sklearn . pipeline import Pipeline
from sklearn . preprocessing import StandardScaler
from sklearn . neighbors import KNeighborsClassifier

libras = imb_datasets . fetch_datasets ()[ 'libras_move' ]
X , y = libras [ 'data' ], libras [ 'target' ]

oversampler = ( 'smote_variants' , 'MulticlassOversampling' ,
                { 'oversampler' : 'distance_SMOTE' , 'oversampler_params' : {}})

classifier = ( 'sklearn.neighbors' , 'KNeighborsClassifier' , {})

# Constructing a pipeline with oversampling and classification as the last step
model = Pipeline ([( 'scale' , StandardScaler ()),
                ( 'clf' , sv . classifiers . OversamplingClassifier ( oversampler , classifier ))])

param_grid = { 'clf__oversampler' :[( 'smote_variants' , 'distance_SMOTE' , { 'proportion' : 0.5 }),
                                ( 'smote_variants' , 'distance_SMOTE' , { 'proportion' : 1.0 }),
                                ( 'smote_variants' , 'distance_SMOTE' , { 'proportion' : 1.5 })]}

# Specifying the gridsearch for model selection
grid = GridSearchCV ( model ,
                  param_grid = param_grid ,
                  cv = 3 ,
                  n_jobs = 1 ,
                  verbose = 2 ,
                  scoring = 'accuracy' )

# Fitting the pipeline
grid . fit ( X , y )

貢献

さらにオーバーサンプリング手法を実装して、プルリクエストの準備ができたらすぐにコードについて説明しましょう！

参照

[スモート]

Chawla、NV and Bowyer、KW and Hall、Lo and Kegelmeyer、WP、 "{Smote}：Synthetic Minority Over-Sampling Technique"、Journal of Artificial Intelligence Research、2002、pp。321--357

[smote_tomeklinks]

Batista、Gustavo Eapa and Prati、Ronaldo C. and Monard、Maria Carolina、「機械学習トレーニングデータのバランスをとるいくつかの方法の行動の研究」、Sigkdd Explor。 Newsl。、2004、pp。20--29

[smote_enn]

[borderline_smote1]

HA、「Borderline-Smote：不均衡なデータセット学習における新しい過剰サンプリング方法」、Intelligent ComputingのAdvances、2005、pp。878--887

[borderline_smote2]

HA、「Borderline-Smote：不均衡なデータセット学習における新しい過剰サンプリング方法」、Intelligent ComputingのAdvances、2005、pp。878--887

[Adasyn]

He、H. and Bai、Y。and Garcia、Ea and Li、S。、「{Adasyn}：不均衡な学習のための適応合成サンプリングアプローチ」、IJCNNの議事録、2008年、pp。1322--1328

[AHC]

ジル・コーエンとメラニー・ヒラリオとヒューゴ・サックスとステファン・ヒューゴネットとアントワーヌ・ガイスブラー、「院内感染の監視における不均衡なデータから学ぶ」、医学の人工知能、2006年、7-18ページ

[lle_smote]

Wang、J。and Xu、M。and Wang、H。and Zhang、J。、「Smoteアルゴリズムと局所線形埋め込みを使用した不均衡データの分類」、2006年第8回信号処理に関する国際会議、2006年、pp。

[Distance_smote]

De La Calleja、J。およびFuentes、O。、「不均衡なデータセットから学習するための距離ベースの過剰サンプリング方法」、20世国際フロリダ人工知能の議事録、2007年、pp。634--635

[SMMO]

デ・ラ・カレハ、ホルヘとフエンテス、オラックとゴンザレス、ヘスス、「過剰なサンプリングのために誤分類されたデータから少数派の例を選択」。、第21回国際フロリダ人工知能研究協会会議の議事録、2008年、pp。276-281

[polynom_fit_smote]

Gazzah、S。and Amara、Neb、「不均衡なデータセットの多項式適合に基づく新しいオーバーサンプリングアプローチ」、2008年、ドキュメント分析システムに関する第8回IAPR国際ワークショップ、2008、pp。677-684

[Stefanowski]

Stefanowski、Jerzy and Wilk、Szymon、「分類パフォーマンスを改善するための不均衡なデータの選択的前処理」、データ倉庫および知識発見に関する第10回国際会議の議事録、2008年、pp。283---292

[アドム]

Tang、S。and Chen、S。、「合成マイノリティクラスの例の生成メカニズム」、2008年のバイオメディシンにおける情報技術とアプリケーションに関する国際会議、2008年、pp。444-447

[SAFE_LEVEL_SMOTE]

Bunkhumpornpat、ChumpholおよびSinapiromsaran、Krung and Lursinsap、Chidchanok、「安全レベルのスモーテ：クラスの不均衡な問題を扱うための安全レベルの少数派の過剰サンプリング技術」、知識発見の進行に関する第13太平洋アジア会議の議事録の議事録およびData Mining、2009、pp。475--482

[msmote]

Hu、ShengguoとLiang、Yanfeng and Ma、LintaoとHe、Ying、Ying、「Msmote：トレーニングデータが不均衡なときの分類パフォーマンスの改善」、2009年のコンピューターサイエンスとエンジニアリングに関する第2回国際ワークショップの議事録 - 2009年、2009年、pp。13pp。13 -17

[de_oversampling]

Chen、L。and Cai、Z. and Chen、L。and Gu、Q。、「不均衡なデータセットに関する新しい微分進化クラスタリングハイブリッド再サンプリングアルゴリズム」、2010年第3回知識発見とデータマイニングに関する第3回国際会議、2010年、pp。 81-85

[smobd]

Cao、Q。and Wang、S。、「データ密度とコストに敏感なSVMに基づいて不均衡な学習に基づいてサンプリングテクニックを適用する」、2011年の情報管理、イノベーション管理および産業工学に関する国際会議、2011年、pp。543-548

[sundo]

Cateni、S。and Colla、V。and Vannucci、M。、「産業およびその他の現実世界の問題の不均衡なデータセットの分類のための新しい再サンプリング方法」、2011年第11回インテリジェントシステム設計とアプリケーションに関する国際会議、2011年、pp。 402-407

[msyn]

FA、「不均衡なデータセットから学習するためのマージンベースの過剰サンプリング方法」、知識の発見とデータマイニングの進歩、2011年、pp。309--320

[svm_balance]

Farquad、Mah and Bose、Indranil、「サポートベクターマシンを使用した不均衡なデータを前処理する」、Decis。 Support Syst。、2012、pp。226--233

[trim_smote]

Puntumapo、「合成マイノリティオーバーサンプリングのための正確で一般化された地域を検索するための剪定ベースのアプローチ」、知識発見とデータマイニングの進歩、2012年、pp。371--382

[smote_rsb]

Ramento、「Smote-RSB*：Smote and Rough Sets Theoryを使用した高い不均衡なデータセットのオーバーサンプリングとアンダーサンプリングに基づくハイブリッド前処理アプローチ」、知識と情報システム、2012年、pp。245--265

[Prowsyn]

Baru、「Prowsyn：不均衡なデータセット学習のための近接加重合成オーバーサンプリング手法」、知識発見とデータマイニングの進歩、2013年、pp。317--328

[sl_graph_smote]

Bunkhumpornpat、Chumpol and Subpaiboonkit、Sitthichoke、「合成マイノリティオーバーサンプリング技術の安全レベルグラフ」、通信および情報技術に関する第13回国際シンポジウム、2013年、pp。570-575

[nrsboundary_smote]

Feng、Hu、Hung、Li、「近隣のラフセットモデルに基づく新しい境界オーバーサンプリングアルゴリズム：NRSBoundary-Smote」、Engineeringの数学的問題、2013年、pp。10ページ

[lvq_smote]

中村ムネヒロとカジワラと尾usukeと尾骨島と木の木島、「LVQ-smote - 生物医学データのための学習ベクター量子化ベースの合成少数派技術」、2013年のBiodata Mining

[soi_cj]

Sánchez、AtlántidaI.およびMorales、Eduardo and Gonzalez、イエス、「クラスタリングを使用したインスタンスの合成オーバーサンプリング」、International Journal of Artificial Intelligence Tools、2013、pp。

[薔薇]	メナード、「不均衡なデータによる分類規則のトレーニングと評価」、データマイニングと知識発見、2014年、92--122ページ

[smote_out]

Fajri Koto、「Smote-Out、Smote-Cosine、およびSelected-Smote：データレベルでの不均衡を処理するための機能強化戦略」、2014年の高度なコンピューター科学情報システムに関する国際会議、2014年、pp。280-284

[smote_cosine]

[selected_smote]

[ln_smote]

Maciejewski、T。およびStefanowski、J。、「マイニングの不均衡データのためのスモートの地元の近隣拡張」、2011 IEEE Symposium on Computational Intelligence and Data Mining（CIDM）、2011、pp。104-111

[mwmote]

Barua、S。and Islam、Mm and Yao、X。and Murase、K。、「Mwmote-Majority Weighted Minority overing Sampling Technieque for Truanced Data Set Learning」、IEEE Transactions on Knowledge and Data Engineering、2014、pp。405-425

[pdfos]

Ming GaoとXia HongとSheng ChenとCheng J. HarrisとEmad Khalaf、「PDFOS：不均衡な2クラスの問題の過剰サンプリングに基づくPDF推定」、Neurocomputing、2014、pp。248-259

[ipade_id]

ビクトリア・ロペスとアイザック・トリゲロとクリストバル・J・カルモナとサルバドール・ガルシアとフランシスコ・ヘレラ「インスタンス生成技術との不均衡な分類に対処する」、IPADE -ID」、Neurocomputing、2014、pp。15-28

[rwo_sampling]

Zhang、HuaxzhangおよびLi、Mingfang、「RWO-Sampling：不均衡なデータ分類に対するランダムウォークオーバーサンプリングアプローチ」、Information Fusion、2014、pp。

[neater]

IA、BAとKakadiarisのAlmogahed、「neater：非協力的なゲーム理論を使用した過剰サンプリングデータのフィルタリング」、2014年22番目のパターン認識に関する国際会議、2014年、pp。1371-1376

[ディーゴ]

Bellinger、C。and Japkowicz、N。and Drummond、C。、「高度な放射性脅威検出のための合成オーバーサンプリング」、2015 IEEE 14th Machine Learning and Applications（ICMLA）、2015、pp。948-953

[ガザ]	Gazzah、S。and Hechkel、A。and Essoukri Ben Amara、N。、「不均衡なデータのためのハイブリッドサンプリング方法」、2015 IEEEシステムに関するIEEE 12th International Multi-Conference、Signals Devices（SSD15）、2015、pp。1-6

[MCT]

Jiang、Liangxiao and Qiu、Chen and Li、Chaoqun、「コストに敏感な学習のための新しい少数派のクローニング技術」、International Journal of Pattern Recoldition and人工知能、2015年、pp。1551004

[ADG]

Pourhabib、A。and Mallick、Bani K. and Ding、Yu、「コストに敏感な学習のための新しい少数派クローニング技術」、Journal of Machine Learning Research、2015、pp。2695--2724

[smote_ipf]

ホセ・A・サエスとジュリアン・ルエンゴとジャージー・ステファノウスキとフランシスコ・ヘレラ、「Smote –IPF：フィルタリングを伴う再サンプリング方法による不均衡な分類における騒々しい境界線の例に対処する」、情報科学、2015年、203-203-203

[Kerneladasyn]

Tang、B。and He、H。、「Kerneladasyn：Kernelベースの不均衡学習のための適応合成データ生成」、2015 IEEE Congress on Evolutionary Computation（CEC）、2015、pp。664-671

[mot2ld]

XI、「不均衡な学習のための低次元空間における局所密度に基づく合成マイノリティオーバーサンプリング方法」、高度なアプリケーションのデータベースシステム、2015、pp。3--18

[v_synth]

Young、II、William A. and Nykl、Scott L. and Weckman、Gary R. and Chelberg、David M.、「Voronoi Diagramsを使用して、不均衡なデータセットのモデリング時に分類パフォーマンスを改善する」、ニューラルコンピューター。 Appl。、2015、pp。1041--1054

[oups]

William A. RiveraとPetros Xanthopoulos、「不均衡なデータセットの分類感度を高めるための先験的合成過剰サンプリング方法」、アプリケーションを備えたエキスパートシステム、2016、pp。124-135

[smote_d]

Torre、「Smote-D Smoteの決定論的バージョン」、パターン認識、2016、pp。177--188

[smote_pso]

Jair CervantesとFarid Garcia-LamontとLisbeth RodriguezとAsdrúbalLópezとJoséRuizCastillaとAdrian Trueba、「歪んだデータセットのSVM分類のためのPSOベースの方法」、Neurocomputing、2017、pp。187-197

[cure_smote]

M、「ランダムフォレストに基づく機能選択とパラメーター最適化のためのCure-Smoteアルゴリズムとハイブリッドアルゴリズム」、BMC Bioinformatics、2017、pp。169

[ソモ]	Georgios DouzasとFernando Bacao、「不均衡なデータセット学習のための自己組織化マップオーバーサンプリング（SOMO）、アプリケーションを備えたエキスパートシステム、2017、pp。40-52

[isomap_hybrid]

Gu、Qiong and Cai、Zhihua and Zhu、Li、「Isomapに基づくハイブリッド再サンプリングアルゴリズムを使用した不均衡なデータセットの分類」、第4回国際シンポジウムの計算と知能の進歩に関する議事録、2009年、pp。287- -296

[ce_smote]

Chen、S。and Guo、G。and Chen、L。、「クラスターアンサンブルに基づく新しいオーバーサンプリング方法」、2010 IEEE 24th International Conference on Advanced Information Networking and Applications Workshops、2010、pp。599-604

[edge_det_smote]

Kang、Y。and Won、S。、「クラスの均等な学習に関するオーバーサンプリング手法のための重量決定アルゴリズム」、ICCAS 2010、2010、pp。182-186

[CBSO]

Baru、「不均衡なデータセット学習のための新しい合成マイノリティオーバーサンプリング手法」、Neural Information Processing、2011、pp。735--744

[e_smote]

Deepa、T。and Punithavalli、M。、「高次元の不均衡データセットにおける機能選択のためのe-Smoteテクニック」、2011年第3回エレクトロニクスコンピューターテクノロジーに関する国際会議、2011年、pp。322-324

[dbsmote]

Bunkhumpornpa、「dbsmote：密度ベースの合成マイノリティオーバーサンプリング技術」、Applied Intelligence、2012、pp。664--684

[asmobd]

Senzhang WangとZhoujun LiとWenhan ChaoとQinghua Cao。 -8

[assembled_smote]

Zhou、B。and Yang、C。and Guo、H。and Hu、J。、「不均衡なデータ分類のための組み立てられたスモートと組み合わせた準線形SVM」、2013年のニューラルネットワークに関する国際会議（IJCNN）、2013年、 pp。1-7

[sdsmote]

Li、K。and Zhang、W。and Lu、Q。and Fang、X。、「サポート学位に基づく改善されたスモートの不均衡なデータ分類方法」、2014年の識別、情報、情報の情報、知識に関する国際会議、2014年、pp。34-38

[dsmote]

Mahmoudi、S。and Moradi、P。and Akhlaghian、F。and Moradi、R。、「不均衡なデータ分類のための過剰サンプリング技術における多様性と分離可能な指標」、2014年第4回コンピューターおよびナレッジエンジニアリングに関する国際会議（ICCKE）、2014年、pp。152-158

[g_smote]

Sandhan、T。and Choi、JY、「パターン認識のための部分的にガイド付きハイブリッドサンプリングによる不均衡なデータセットの取り扱い」、2014年22番目のパターン認識に関する国際会議、2014年、pp。1449-1453

[nt_smote]

Xu、YH、Li、H。およびLe、LPとTian、XY、「中国の観光およびホスピタリティ企業の小さなサンプルに関する不均衡な予測のための近隣の三角シンセティックマイノリティオーバーサンプリング技術」、2014年7番目の国際的な合同会議と最適化に関する第7回国際合同会議、2014、pp。534-538

[リー]	Lee、Jaedong and Kim、Noo-Ri、Lee、Jee-Hyong、「不均衡なクラス学習のための拒否を伴う過剰なサンプリング手法」、ユビキタス情報管理とコミュニケーションに関する第9回国際会議の議事録、2015年、pp。102：1 --102：6

[スパイ]

Dang、Xt and Tran、DH and Hirose、O. and Satou、K。、「スパイ：不均衡なデータの分類パフォーマンスを改善するための新しい再サンプリング方法」、2015年7番目の国際知識およびシステムエンジニアリング会議（KSE）、2015年、PP . 280-285

[smote_psobat]

Li、J。and Fong、S。and Zhuang、Y。、「ニューラルネットワークと意思決定ツリーを使用したメタヒューリスティックによるスモートの最適化」、2015年の計算およびビジネスインテリジェンスに関する第3回国際シンポジウム（ISCBI）、2015年、26-32ページ

[MDO]

Abdi、L。and Hashemi、S。、「過剰サンプリング技術によるマルチクラスの不均衡な問題と戦う」、知識とデータエンジニアリングに関するIEEEトランザクション、2016、pp。238-251

[random_smote]

ドン、「新しい過剰サンプリングアプローチ：不均衡なデータセットから学習するためのランダムスモート」、Knowledge Scienc、2011、pp。343--352

[ismote]

L、「不均衡なデータのための新しい組み合わせサンプリング方法」、2013年の中国のインテリジェントオートメーション会議、2013年、pp。547--554の議事録

[vis_rst]

Borowsk、「不均衡なデータ分類：多用途の改善されたスモートとラフセットを組み合わせた新しい再サンプリングアプローチ」、コンピューター情報システムと産業管理、2016年、pp。31--42

[Gasmote]

Jian、「遺伝的アルゴリズムに基づく不均衡データ分類のための新しいアルゴリズムの改善されたスモート」、アラビアンジャーナルフォーサイエンスアンドエンジニアリング、2016年、pp。3255--3266

[a_suwo]

Iman NekooeimehrとSusana K. Lai-Yuen、「不均衡なデータセットのための適応的半拡散加重オーバーサンプリング（A-SUWO）」、アプリケーションを備えたエキスパートシステム、2016、pp。405-416

[smote_frst_2t]

Ramento、「高電圧回路ブレーカーメンテナンスの診断のためのファジーラウの不均衡学習：Smote-Frst-2tアルゴリズム」、人工知能のエンジニアリングアプリケーション、2016、pp。134-139

[and_smote]

Yun、Jaesub and Ha、Jihyun and Lee、Jong-Seok、「Smoteにおける近隣サイズの自動決定」、ユビキタス情報管理とコミュニケーションに関する第10回国際会議の議事録、2016年、pp。100：1-100：8

[nras]

William A. Rivera、「クラスの不均衡なデータセットのためのプライリス合成過剰サンプリング」、情報科学、2017年、pp。146-161

[AMSCO]

Jinyan LiとSimon FongとRaymond K. Wong and Victor W. Chu、「不均衡なデータ分類のための適応的多目的群れ融合」、Information Fusion、2018、pp。1-24

[SSO]

Ron、「不均衡なデータのための確率的感度オーバーサンプリング手法」、機械学習とCybernetics、2014、pp。161--171

[ndo_sampling]

Zhang、L。and Wang、W。、「クレジットデータによるクラスの不均衡学習のための再サンプリング方法」、2011年の情報技術、コンピューターエンジニアリングおよび管理科学、2011年、pp。393-397

[DSRBF]

FranciscoFernández-NavarroとCésarHervás-MartínezとPedro AntonioGutiérrez、「マルチクラスの問題に対する感度に基づく動的な過剰サンプリング手順」、パターン認識、2011年、1821年 - 1833年

[gaussian_smote]

Hansoo LeeとJonggeun KimとSungshin Kim、「歪んだクラス分布を解決するためのガウスに拠点を置くSmoteアルゴリズム」、int。 J. Fuzzy Logic and Intelligent Systems、2017、pp。229-234

[kmeans_smote]

Georgios DouzasとFernando BacaoとFelix Last、「K -meansとSmoteに基づくヒューリスティックなオーバーサンプリング方法による不均衡な学習の改善」、Information Sciences、2018、pp。1-20

[supperided_smote]

Hu、Jun and He、Xue and Yu、Dong-JunとYang、Xi-BeiとYang、Jing-YuとShen、Hong-bin、「タンパク質ヌクレオチド結合残基の予測への適用を伴う新しい監視されたオーバーサンプリングアルゴリズム」、PLOS ONE、2014、pp。1-10

[sn_smote]

GARC {'I}、「不均衡なデータセットから学習するための周辺の近隣ベースのスモート」、Progress in Thisantional Intelligence、2012、pp。347--362

[CCR]

Koziarski、MichałおよびWozniak、Michal、「CCR：不均衡なデータ分類のためのクリーニングと再サンプリングアルゴリズムの組み合わせ」、International Journal of Applied Mathematics and Computer Science、2017、pp。727–736

[ans]

Siriseriwan、WおよびSinapiromsaran、Krung、「1NNの追放ハンドリングの下での適応隣接隣人合成マイノリティオーバーサンプリング手法」、Songlanakarin Journal of Science and Technology、2017、pp。565-576

[cluster_smote]

Cieslak、DA and Chawla、NVおよびStriegel、A。、「ネットワーク侵入データセットの不均衡の闘い」、2006 IEEE国際会議に関するGranular Computing、2006、pp。732-737

[Symprod]

Kunakorntum、I。and Hinthong、W。and Phunchongharn、P。、「不均衡なデータセットの確率分布（Symprod）オーバーサンプリングに基づく合成少数派」、IEEE Access、2020、pp。114692-114704

[smotewb]

MAのSağlam、F。およびCengiz、「新しいスモートベースの再サンプリング技術トラフ騒音検出とブースト手順」、アプリケーションを備えたエキスパートシステム、2022、pp。117023

拡大する

smote_variants

不均衡な学習のためのSmote-Variants

最新ニュース

導入

比較と評価

引用

インストール

ドキュメント

ベストプラクティス

正規化/標準化/スケーリング/機能の選択

生成されるサンプルの数のモデル選択

サンプルの使用

バイナリオーバーサンプリング

マルチクラスオーバーサンプリング

最高のオーバーサンプラーの選択

Sklearnパイプラインとの統合

Sklearnグリッド検索との統合

貢献

参照

OpenCore_NO_ACPI_Build

nspanel_pro_tools_apk

zkwork_aleo_gpu_worker

nextcloud_share_url_downloader

犬キツネバニー

Lihua データ分析エンジン無料版 3.0_検索_ナビゲーション_コレクション_世論_ランキング_api

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

hidusbf

Google Dorks

shepherd

hidusbf