
_ _ _
___ _ __ ___ ___ | | _ ___ __ __ __ _ _ __ (_) __ _ _ __ | | _ ___
/ __ || '_ `_ / _ | __ | / _ _____ / // _` || '__ || | / _` || '_ | __ |/ __ |
__ | | | | | || (_) || | _ | __ /| _____ | V /| (_ | Великобритания
| ___/| _ | | _ | | _ | ___/ __ | ___ | _/ __, _ || _ | | _ | __, _ || _ | | _ | __ || ___/
Перегонять варианты для несбалансированного обучения
Последние новости
- 1.0.0 вышел
- Добавлены методы недостатки
- Smotewb добавил, спасибо @szghlm
- векторизованные реализации для большинства методов для повышения производительности
- Рефактор и улучшенная оценка и набор инструментов для выбора модели
- 100% тестовый охват
- 10.0 PEP8 соответствие (от Pylint)
- polynom_fit_smote разделить на 4 различных метода
- Symprod добавлен в качестве 86 -й Reversampler, благодаря @intouchkun
Введение
Пакет реализует 86 вариантов метода перегрузки синтетического меньшинства (ударить). Помимо реализаций, простая в использовании структуру выбора модели поставляется, чтобы обеспечить быструю оценку методов перенаправления на невидимых наборах данных.
Реализованные методы: [smote], [smote_tomeklinks], [smote_enn], [borderline_smote1], [borderline_smote2], [adasyn], [ahc], [lle_smote], [distance_smote], [smmo], [polynom_fit_smote], [stefanows ], [Adoms], [safe_level_smote], [msmote], [de_oversampling], [smobd], [sundo], [msyn], [svm_balance], [trim_smote], [smote_rsb], [prowsyn], [sl_graph_smote], [smote_rsb], [prowsyn], [sl_graph_smote], [smote_rsb], [prowsyn], [sl_graph_smote], [smote_rsb], [prowsyn], [sl_graph_smote], [Nrsboundary_smote], [lvq_smote], [soi_cj], [rose], [smote_out], [smote_cosine], [selected_smote], [ln_smote], [mwmote], [pdfos], [ipade_id], [rwo_sling ], [Deago], [Gazzah], [MCT], [ADG], [SMOTE_IPF], [kerneladasyn], [mot2ld], [v_synth], [oups], [smote_d], [smote_pso], [cure_smote], [smote_d], [smote_pso], [cure_smote], [Somo], [isomap_hybrid], [ce_smote], [edge_det_smote], [cbso], [e_smote], [dbsmote], [asmobd], [comsobled_smote], [sdsmote], [dsmote], [g_smote], [nt_smote], [dsmote], [g_smote] ], [Lee], [spy], [smote_psobat], [mdo], [random_smote], [ismote], [vis_rst], [Gasmote], [a_suwo], [smote_frst_2t], [and_smote], [nras], [smote_frst_2t], [and_smote], [nras], [Amsco], [sso], [ndo_sampling], [dsrbf], [gaussian_smote], [kmeans_smote], [контролированный ]
Сравнение и оценка
Подробное сравнение и оценку всех реализованных методов см. Link_to_comparison_paper
Цитирование
Если вы используете этот пакет в своем исследовании, пожалуйста, рассмотрите возможность ссылаться на приведенные ниже документы.
Препринт описывает пакет см. Link_to_package_paper
Bibtex для пакета:
@article { smote-variants ,
author = { Gy"orgy Kov'acs } ,
title = { smote-variants: a Python Implementation of 85 Minority Oversampling Techniques } ,
journal = { Neurocomputing } ,
note = { (IF-2019=4.07) } ,
volume = { 366 } ,
pages = { 352--354 } ,
year = { 2019 } ,
group = { journal } ,
code = { https://github.com/analyticalmindsltd/smote_variants } ,
doi = { 10.1016/j.neucom.2019.06.100 }
} Для предварительного приема сравнительного исследования см. Link_to_evaluation_paper
Bibtex для сравнения и оценки:
@article { smote-comparison ,
author = { Gy"orgy Kov'acs } ,
title = { An empirical comparison and evaluation of minority oversampling techniques on a large number of imbalanced datasets } ,
journal = { Applied Soft Computing } ,
note = { (IF-2019=4.873) } ,
volume = { 83 } ,
pages = { 105662 } ,
year = { 2019 } ,
link = { https://www.sciencedirect.com/science/article/pii/S1568494619304429 } ,
group = { journal } ,
code = { https://github.com/analyticalmindsltd/smote_variants } ,
doi = { 10.1016/j.asoc.2019.105662 }
} Установка
Пакет может быть клонирован из GitHub обычным способом, а последняя стабильная версия также доступна в репозитории PYPI:
pip install smote-variants
Документация
- Подробную документацию см. Http://smote-variants.readthedocs.io.
- Для проверки учебного пособия на YouTube https://www.youtube.com/watch?v=GSK7AKQPM60
Лучшие практики
Нормализация/стандартизация/масштабирование/выбор функций
Большинство методов перегрузки работают в евклидовом пространстве, подразумеваемом атрибутами. Следовательно, чрезвычайно важно нормализовать/масштабировать атрибуты надлежащим образом. Не зная о важности атрибутов, нормализация/стандартизация - хорошая первая попытка. Наличие некоторого знания в области или важности атрибута из классификации начальной загрузки, масштабирование атрибутов диапазон в соответствии с их важности также является разумным. В качестве альтернативы, выбор подмножества функций может также улучшить результаты за счет заглавных работ в наиболее подходящем подпространстве.
Выбор модели для количества образцов, которые будут сгенерированы
Классификация после перенаправления очень чувствительна к количеству генерируемых образцов меньшинств. Балансировка набора данных редко является правильным выбором, так как большинство классификаторов работают наиболее эффективно, если плотность положительных и отрицательных образцов вблизи границы принятия решений примерно одинакова. Если коллекторы положительных и отрицательных классов не имеют такого же размера приблизительно, балансирование набора данных не может достичь этого. Более того, в определенных регионах он может даже вернуть ситуацию: если многообразие класса меньшинства намного меньше, чем у класса большинства, балансировка превратит класс меньшинств в большинство в местных средах вдоль границы принятия решений.
Решение состоит в том, чтобы применить выбор модели для количества генерируемых образцов. Почти все методы, реализованные в пакете `smote-variants` имеют параметр под названием `proportion` . Этот параметр контролирует, сколько выборок для генерации, а именно, количество генерируемых образцов меньшинств составляет `proportion*(N_maj - N_min)` , то есть настройка параметра доли на 1 будет сбалансировать набор набора данных. Настоятельно рекомендуется выполнить перекрестную проверку выбора модели для такого диапазона, как `proportion` = 0,1, 0,2, 0,5, 1,0, 2,0, 5,0.
Образец использования
Бинарная заглавная дискретизация
import smote_variants as sv
import imbalanced_databases as imbd
dataset = imbd . load_iris0 ()
X , y = dataset [ 'data' ], dataset [ 'target' ]
oversampler = sv . distance_SMOTE ()
# X_samp and y_samp contain the oversampled dataset
X_samp , y_samp = oversampler . sample ( X , y )
Multiclass Oversampling
import smote_variants as sv
import sklearn . datasets as datasets
dataset = datasets . load_wine ()
X , y = dataset [ 'data' ], dataset [ 'target' ]
oversampler = sv . MulticlassOversampling ( oversampler = 'distance_SMOTE' ,
oversampler_params = { 'random_state' : 5 })
# X_samp and y_samp contain the oversampled dataset
X_samp , y_samp = oversampler . sample ( X , y )Выбор лучших заглавных
from sklearn . neighbors import KNeighborsClassifier
from sklearn . tree import DecisionTreeClassifier
import smote_variants as sv
import sklearn . datasets as datasets
dataset = datasets . load_breast_cancer ()
dataset = { 'data' : dataset [ 'data' ],
'target' : dataset [ 'target' ],
'name' : 'breast_cancer' }
classifiers = [( 'sklearn.neighbors' , 'KNeighborsClassifier' , {}),
( 'sklearn.tree' , 'DecisionTreeClassifier' , {})]
oversamplers = sv . queries . get_all_oversamplers ( n_quickest = 2 )
os_params = sv . queries . generate_parameter_combinations ( oversamplers ,
n_max_comb = 2 )
# samp_obj and cl_obj contain the oversampling and classifier objects which give the
# best performance together
samp_obj , cl_obj = sv . evaluation . model_selection ( dataset = dataset ,
oversamplers = os_params ,
classifiers = classifiers ,
validator_params = { 'n_splits' : 2 ,
'n_repeats' : 1 },
n_jobs = 5 )
# training the best techniques using the entire dataset
X_samp , y_samp = samp_obj . sample ( dataset [ 'data' ],
dataset [ 'target' ])
cl_obj . fit ( X_samp , y_samp )Интеграция с трубопроводами Sklearn
import smote_variants as sv
import imblearn . datasets as imb_datasets
from sklearn . model_selection import train_test_split , GridSearchCV
from sklearn . pipeline import Pipeline
from sklearn . preprocessing import StandardScaler
from sklearn . neighbors import KNeighborsClassifier
libras = imb_datasets . fetch_datasets ()[ 'libras_move' ]
X , y = libras [ 'data' ], libras [ 'target' ]
oversampler = ( 'smote_variants' , 'MulticlassOversampling' ,
{ 'oversampler' : 'distance_SMOTE' , 'oversampler_params' : {}})
classifier = ( 'sklearn.neighbors' , 'KNeighborsClassifier' , {})
# Constructing a pipeline which contains oversampling and classification
# as the last step.
model = Pipeline ([( 'scale' , StandardScaler ()),
( 'clf' , sv . classifiers . OversamplingClassifier ( oversampler , classifier ))])
model . fit ( X , y )Интеграция с поиском сетки Sklearn
import smote_variants as sv
import imblearn . datasets as imb_datasets
from sklearn . model_selection import train_test_split , GridSearchCV
from sklearn . pipeline import Pipeline
from sklearn . preprocessing import StandardScaler
from sklearn . neighbors import KNeighborsClassifier
libras = imb_datasets . fetch_datasets ()[ 'libras_move' ]
X , y = libras [ 'data' ], libras [ 'target' ]
oversampler = ( 'smote_variants' , 'MulticlassOversampling' ,
{ 'oversampler' : 'distance_SMOTE' , 'oversampler_params' : {}})
classifier = ( 'sklearn.neighbors' , 'KNeighborsClassifier' , {})
# Constructing a pipeline with oversampling and classification as the last step
model = Pipeline ([( 'scale' , StandardScaler ()),
( 'clf' , sv . classifiers . OversamplingClassifier ( oversampler , classifier ))])
param_grid = { 'clf__oversampler' :[( 'smote_variants' , 'distance_SMOTE' , { 'proportion' : 0.5 }),
( 'smote_variants' , 'distance_SMOTE' , { 'proportion' : 1.0 }),
( 'smote_variants' , 'distance_SMOTE' , { 'proportion' : 1.5 })]}
# Specifying the gridsearch for model selection
grid = GridSearchCV ( model ,
param_grid = param_grid ,
cv = 3 ,
n_jobs = 1 ,
verbose = 2 ,
scoring = 'accuracy' )
# Fitting the pipeline
grid . fit ( X , y ) Вклад
Не стесняйтесь реализовать какие -либо дальнейшие методы перегрузки и давайте обсудим коды, как только запрос на привлечение будет готов!
Ссылки
| [Пробивайте] | Chawla, NV и Bowyer, KW и Hall, LO и Kegelmeyer, WP, «{Smote}: Синтетическая техника переизбытков меньшинства», Journal of Artificial Intelligence Research, 2002, стр. 321--357 |
| [Smote_tomeklinks] | Батиста, Густаво Иапа и Прати, Роналду С. и Монард, Мария Каролина, «Изучение поведения нескольких методов балансировки данных обучения машинного обучения», Sigkdd Explor. Newsl., 2004, с. 20--29 |
| [Smote_enn] | Батиста, Густаво Иапа и Прати, Роналду С. и Монард, Мария Каролина, «Изучение поведения нескольких методов балансировки данных обучения машинного обучения», Sigkdd Explor. Newsl., 2004, с. 20--29 |
| [Borderline_smote1] | HA, «Borderline-Smote: новый метод перепроблемы в несбалансированных наборах данных в обучении», Advances in Intelligent Computing, 2005, с. 878--887 |
| [Borderline_smote2] | HA, «Borderline-Smote: новый метод перепроблемы в несбалансированных наборах данных в обучении», Advances in Intelligent Computing, 2005, с. 878--887 |
| [Adasyn] | He, H. и Bai, Y. и Garcia, EA и Li, S., «{Adasyn}: адаптивный подход к синтетической выборке для несбалансированного обучения», Trootings of Ijcnn, 2008, с. 1322--1328 |
| [AHC] | Жиль Коэн и Мелани Хиларио и Хьюго Сакс и Стефан Хугоннет и Антуан Гейсбулер, «Изучение несбалансированных данных в наблюдении за носокомиальной инфекцией», Искусственный интеллект в медицине, 2006, с. 7 - 18 |
| [Lle_smote] | Wang, J. and Xu, M. and Wang, H. и Zhang, J., «Классификация дисбалансированных данных с использованием алгоритма Smote и локально линейного встраивания», 8 -я Международная конференция по обработке сигналов, 2006, стр. |
| [Distance_smote] | De la Calleja, J. and Fuentes, O., «Метод чрезмерного расстояния на расстоянии для обучения на наборах несбалансированных данных», Труды двадцатого международного искусственного интеллекта Флориды, 2007, с. 634--635 |
| [SMMO] | Де ла Каллея, Хорхе и Фуэнтес, Олак и Гонсалес, Хесус, «Выбор примеров меньшинства из неправильно классифицированных данных для чрезмерной выборки». , Труды Двадцать первой Международной Флоридской конференции Общества исследований искусственного интеллекта, 2008, с. 276-281 |
| [polynom_fit_smote] | Gazzah, S. and Amara, Neb, «Новые подходы по переработке, основанные на полиномиальном подгонке для несбалансированных наборов данных», 2008 г. Международный семинар IAPR по системам анализа документов, 2008, с. 677-684 |
| [Стефановский] | Stefanowski, Jerzy and Wilk, Szymon, «Селективная предварительная обработка несбалансированных данных для улучшения эффективности классификации», Материалы 10-й Международной конференции по хранилищу данных и обнаружению знаний, 2008, с. 283--292 |
| [Адомы] | Тан С. и Чен С., «Механизм генерации примеров класса синтетического меньшинства», 2008 Международная конференция по информационным технологиям и приложениям в биомедицине, 2008, с. 444-447 |
| [Safe_level_smote] | Bunkhumpornpat, Chumphol и Sinapiromsaran, Krung и Lursinsap, Chidchanok, «Безопасное уровни-Smote: метод переизбытков из-за синтезированного меньшинства безопасного уровня для решения проблемы с оценкой классов», «Произображение 13-й тихоокеанской конференции по аспектам. и данные данных, 2009, с. 475--482 |
| [Msmote] | Hu, Shengguo и Liang, Yanfeng и MA, Lintao и He, Ying, «MSMote: повышение эффективности классификации при предоставлении данных обучения», Материалы второго международного семинара 2009 года по компьютерным наукам и технике - Том 02, 2009, с. 13 --17 |
| [De_oversampling] | Chen, L. and Cai, Z. и Chen, L. и Gu, Q., «Новый алгоритм повторной дискретизации дифференциальной эволюции кластеризации на дисбалансированные наборы», 2010 Третья Международная конференция по обнаружению знаний и добыче данных, 2010, с. 81-85 |
| [SMOBD] | CAO, Q. и Wang S., «Применение метода переполнения, основанную на плотности данных и чувствительном к затрат SVM к несбалансированному обучению», 2011 Международная конференция по управлению информацией, управлением инновациями и промышленным инженерией, 2011, с. 543-548 |
| [Сундо] | Cateni, S. and Colla, V. и Vannucci, M., «Новый метод повторной выборки для классификации несбалансированных наборов данных для промышленных и других проблем реального мира», 11-я Международная конференция по проектированию и приложениям интеллектуальных систем, 2011, с. 402-407 |
| [MSYN] | FA, «Метод чрезмерного размены на основе маржи для обучения из дисбалансированных наборов данных», Достижения в области обнаружения знаний и добычи данных, 2011, с. 309--320 |
| [Svm_balance] | Farquad, Mah and Bose, Indranil, «Предварительная обработка несбалансированных данных с использованием Vector Machine поддержки», Decis. Support Syst., 2012, с. 226--233 |
| [Trim_smote] | Puntumapo, «подход на основе обрезки для поиска точной и обобщенной области для синтетического миноритарного переворота», достижения в области обнаружения знаний и добычи данных, 2012, стр. 371--382 |
| [Smote_rsb] | Ramento, «Smote-RSB*: гибридный подход предварительной обработки, основанный на переносе и недостаточной дискретизации для высоких несбалансированных наборов данных с использованием теории ударов и грубых наборов», «Знания и информационные системы», 2012, с. 245--265 |
| [Prowyn] | Baru, «Prosyn: метод синтетической перегрузки, взвешенная на близости, для несбалансированного обучения набора данных», Достижения в области обнаружения знаний и интеллектуального анализа данных, 2013, с. 317--328 |
| [Sl_graph_smote] | Bunkhumpornpat, Chumpol и Subpaiboonkit, Sitthichoke, «График безопасного уровня для методов перепродажи синтетического меньшинства», 13-й Международный симпозиум по коммуникациям и информационным технологиям, 2013, стр. 570-575 |
| [Nrsboundary_smote] | Feng, Hu and Hang, Li, «Новый алгоритм границ заимствования, основанный на модели грубой установки соседства: Nrsboundary-Smote», Математические проблемы в Engineering, 2013, стр. 10 |
| [Lvq_smote] | Мунехиро Накамура и Юсуке Кадживара и Ацуши Оцука и Харухико Кимура, «Синтетическое меньшинство на основе биодат, на основе метода синтетического меньшинства на основе вектора, 2013 г. |
| [Soi_cj] | Санчес, Атлантида И. и Моралес, Эдуардо и Гонсалес, Иисус, «Синтетическая переносная выборка случаев с использованием кластеризации», Международный журнал инструментов искусственного интеллекта, 2013, с. |
| [Роза] | Menard, «Обучение и оценка правил классификации с помощью несбалансированных данных», Maning Data и Discovery, 2014, с. 92--122 |
| [Smote_out] | Fajri Koto, «Smote-Out, Smote-Cosine и Selected-Smote: стратегия улучшения для обработки дисбаланса на уровне данных», Международная конференция 2014 г. по передовой компьютерной науке и информационной системе, 2014, с. 280-284 |
| [Smote_cosine] | Fajri Koto, «Smote-Out, Smote-Cosine и Selected-Smote: стратегия улучшения для обработки дисбаланса на уровне данных», Международная конференция 2014 г. по передовой компьютерной науке и информационной системе, 2014, с. 280-284 |
| [Selected_smote] | Fajri Koto, «Smote-Out, Smote-Cosine и Selected-Smote: стратегия улучшения для обработки дисбаланса на уровне данных», Международная конференция 2014 г. по передовой компьютерной науке и информационной системе, 2014, с. 280-284 |
| [Ln_smote] | Maciejewski, T. и Stefanowski, J., «Расширение локального соседства для добычи для несбалансированных данных», 2011 IEEE Symposium по вычислительной интеллекту и добыче данных (CIDM), 2011, с. 104-111 |
| [MWMote] | Barua, S. and Islam, MM и Yao, X. и Murase, K., «MWMote-Метод разгрузки меньшинства, взвешенные меньшинства для несбалансированного обучения наборе данных», IEEE Transactions по знаниям и разработке данных, 2014, стр. 405-425 |
| [PDFOS] | Мин Гао и Ся Хонг и Шэн Чен и Крис Дж. Харрис и Эмад Халаф, «PDFOS: PDF Оценка, основанная |
| [IPade_id] | Виктория Лопес и Исаак Тригюро и Кристобал Дж. Кармона и Сальвадор Гарсия и Франциско Эррера, «Акляция несбалансированной классификации с помощью методов генерации экземпляров: iPade -ID», NeuroComputing, 2014, с. 15 - 28 |
| [Rwo_sampling] | Zhang, Huaxzhang и Li, Mingfang, «Rwo-Sampling: случайный подход к переоценке, подход к несбалансированной классификации данных», Information Fusion, 2014, стр. |
| [Eneater] | Almogahed, BA и Kakadiaris, IA, «Eneater: фильтрация переполненных данных с использованием теории не-кооперативных игр», 2014 22-я Международная конференция по распознаванию образцов, 2014, с. 1371-1376 |
| [Диаго] | Bellinger, C. and Japkowicz, N. и Drummond, C., «Синтетическая заглавная выборка для усовершенствованного обнаружения радиоактивной угрозы», 2015 IEEE 14-я Международная конференция по машинному обучению и приложениям (ICMLA), 2015, стр. 948-953 |
| [Газа] | Gazzah, S. и Hechkel, A. и Essoukri Ben Amara, N., «Метод гибридной выборки для несбалансированных данных», 2015 IEEE 12-й международный мультиконференция по системам, устройства Signals (SSD15), 2015, с. 1-6 |
| [MCT] | Jiang, Liangxiao и Qiu, Chen и Li, Chaoqun, «Новая техника клонирования меньшинства для чувствительного к затратам», Международный журнал распознавания образцов и искусственного интеллекта, 2015, с. 1551004 |
| [ADG] | Pourhabib, A. и Mallick, Bani K. и Ding, Yu, «Новая техника клонирования меньшинств для чувствительного к затратам обучения», Journal of Machine Learning Research, 2015, с. 2695--2724 |
| [Smote_ipf] | Хосе А. Саес и Юлиан Луенго и Джери Стефановски и Франциско Эррера, «Служба -IPF: решение проблемы шумных и пограничных примеров в дисбалансированной классификации методом повторной выборки с фильтрацией», Информационные науки, 2015, стр. 184 - 203 |
| [Kerneladasyn] | Тан, Б. и Хе, Х., «Кернеладасин: А |
| [Mot2ld] | XI, «Сторонний метод перегрузки синтетического меньшинства, основанный на локальной плотности в низком пространстве для несбалансированного обучения», Системы базы данных для расширенных приложений, 2015, с. 3-18 |
| [V_synth] | Янг, II, Уильям А. и Никл, Скотт Л. и Векман, Гари Р. и Челберг, Дэвид М., «Использование диаграмм Voronoi для улучшения эффективности классификации при моделировании дисбалансированных наборов данных», Neural Comput. Appl., 2015, с. 1041--1054 |
| [OUP] | Уильям А. Ривера и Петрос Ксантопулос, «Априорные синтетические методы перепродажи для повышения чувствительности классификации в несбалансированных наборах данных», Экспертные системы с приложениями, 2016, с. 124 - 135 |
| [Smote_d] | Торре, "Smote-D детерминированная версия Smote", распознавание образцов, 2016, с. 177-188 |
| [Smote_pso] | Jair Cervantes и Farid Garcia-Lamont и Lisbeth Rodriguez и Asdrúbal López и Хосе Руис Кастилья и Адриан Трауба, метод на основе PSO для классификации SVM на искаженных наборах данных », NeuroComputing, 2017, с. 187-197 |
| [Cure_smote] | M, «Алгоритм Cure-Smote и гибридный алгоритм для выбора функций и оптимизации параметров на основе случайных лесов», BMC Bioinformatics, 2017, с. 169 |
| [Сомо] | Джорджиос Доузас и Фернандо Бакао, «Самоорганизационная карта переноса (SOMO) для обучения несбалансированному набору данных», Экспертные системы с приложениями, 2017, с. 40 - 52 |
| [Isomap_hybrid] | Gu, Qiong и Cai, Zhihua и Zhu, Li, «Классификация несбалансированных наборов данных с использованием гибридного алгоритма повторной выборки на основе ISOMAP», Материалы 4-го международного симпозиума по достижениям в области вычислений и разведки, 2009, с. 287- -296 |
| [Ce_smote] | Chen, S. and Guo, G. и Chen, L., «Новый метод перепродажи, основанный на кластерных ансамблях», 2010 IEEE 24-я Международная конференция по передовым информационным сетям и приложениям, 2010, с. 599-604 |
| [Edge_det_smote] | Kang, Y. and Won, S., «Алгоритм принятия весов для техники перенаправления по обучению в классе», ICCAS 2010, 2010, с. 182-186 |
| [CBSO] | Бару, «Новая техника избыточной выборки синтетического меньшинства для несбалансированного обучения набора данных», «Обработка нейронной информации», 2011, с. 735--744 |
| [E_smote] | Deepa, T. и Punithavalli, M., «Электронная техника для выбора функций в высокомерном дисбалансированном наборе данных», 2011 3-я Международная конференция по электронике Компьютерной технологии, 2011, стр. 322-324 |
| [DBSMote] | Bunkhumpornpa, «DBSMote: Синтетическая перепродажа на основе плотности», Applied Intelligence, 2012, с. 664--684 |
| [Asmobd] | Сенжан Ван и Чжоуджун Ли, Венхан Чао и Цинхуа Цао, «Применяя адаптивную технику переполнения, основанную на плотности данных и чувствительном к затрат SVM для несбалансированного обучения», Международная совместная конференция 2012 года по нейронным сетям (IJCNN), 2012, стр. 1. -8 |
| [Comseled_smote] | Zhou, B. and Yang, C. и Guo, H. and Hu, J., «Квазилинейная SVM в сочетании с сборкой для классификации несбалансированных данных», Международная совместная конференция 2013 года о нейронных сетях (IJCNN), 2013, 2013, 2013, 2013, 2013 г. С. 1-7 |
| [SDSmote] | Li, K. и Zhang, W. и Lu, Q. and Fang, X., «Улучшенный метод классификации данных, основанный на дистанции данных, основанный на степени поддержки», Международная конференция 2014 года по идентификации, информации и знаниям в Интернете, 2014 , стр. 34-38 |
| [DSMote] | Mahmoudi, S. и Moradi, P. и Akhlaghian, F. and Moradi, R., «Разнообразие и разделяемые метрики в технике чрезмерной раздачи для классификации несбалансированных данных», 2014 4-я Международная конференция по компьютерной и знаниям (ICCKE), 2014 , стр. 152-158 |
| [G_smote] | Sandhan, T. и Choi, JY, «Обработка несбалансированных наборов данных путем частично управляемой гибридной выборки для распознавания образцов», 2014 2-я Международная конференция по распознаванию образцов, 2014, с. 1449-1453 |
| [Nt_smote] | Xu, YH и Li, H. и Le, LP и Tian, XY, «Треугольное синтетическое меньшинство. , 2014, с. 534-538 |
| [Ли] | Ли, Джеедонг и Ким, Ноо-Ри и Ли, Джи-Хён, «метод чрезмерного размены с отказом от несбалансированного обучения классу», Материалы 9-й Международной конференции по вездесущему управлению информацией и коммуникацией, 2015, с. 102: 1 --102: 6 |
| [ШПИОН] | DANG, XT и Tran, DH и Hirose, O. and Satou, K., «Spy: новый метод повторной выборки для повышения эффективности классификации в несбалансированных данных», 2015 Седьмая Международная конференция по знаниям и системной инженерии (KSE), 2015, стр. . 280-285 |
| [Smote_psobat] | Li, J. and Fong, S. и Zhuang Y., «Оптимизация удара по метахевристике с нейронной сетью и деревом решений», 2015 3-й Международный симпозиум по вычислительной и бизнес-аналитике (ISCBI), 2015, с. 26-32 |
| [MDO] | Abdi, L. и Hashemi, S., «Для борьбы с многоклассовыми дисбалансными проблемами с помощью методов перепродажи», IEEE Transactions по знаниям и разработке данных, 2016, стр. 238-251 |
| [Random_smote] | Дон, «Новый подход к перепродажке: случайная сбоя для обучения из несбалансированных наборов данных», «Знания Scienc», 2011, с. 343--352 |
| [Ismote] | L, «Новый метод комбинированного отбора проб для несбалансированных данных», «Производительность китайской конференции интеллектуальной автоматизации 2013 года», 2013, с. 547--554 |
| [Vis_rst] | Borowsk, «Бесбалансированная классификация данных: новый подход повторной выборки, комбинирующий универсальный улучшенные перегородки и грубые наборы», компьютерные информационные системы и управление промышленностью, 2016, стр. 31--42 |
| [Gasmote] | Цзянь, «Новый алгоритм классификации данных дисбаланса на основе генетического алгоритма Улучшена», Arabian Journal для науки и инженерии, 2016, с. 3255--3266 |
| [A_suwo] | Иман Некуеймер и Сусана К. Лай-Юен, «Адаптивная полусвязанная взвешенная перенаправка (A-Suwo) для несбалансированных наборов данных», Экспертные системы с приложениями, 2016, стр. 405-416 |
| [Smote_frst_2t] | Ramento, «Обучение несбалансированному устранению нечеткого рода для диагностики поддержания выключателя высокого напряжения: алгоритм Smote-FRST-2T», Инженерные применения искусственного интеллекта, 2016, стр. 134-139 |
| [And_smote] | Юнь, Ясюб и Ха, Джихён и Ли, Чен Сок, «Автоматическое определение размера соседства в ударе», Труды 10-й Международной конференции по вездесущему управлению и коммуникациям, 2016, стр. 100: 1-100: 8 |
| [NRA] | Уильям А. Ривера, «Снижение шума априорная синтетическая перепродажа для классов несбалансированных наборов данных», Информационные науки, 2017, с. 146 - 161 |
| [AMSCO] | Jinyan Li и Simon Fong и Raymond K. Wong и Victor W. Chu, «Адаптивное многоцелевое слияние роя для несбалансированной классификации данных», Information Fusion, 2018, с. 1 - 24 |
| [SSO] | Рон, «Стохастическая чувствительность методика перегрузки для несбалансированных данных», Машинное обучение и Cybernetics, 2014, с. 161--171 |
| [Ndo_sampling] | Zhang, L. and Wang, W., «Метод повторной выборки для обучения дисбаланса классов с кредитными данными», 2011 Международная конференция информационных технологий, компьютерной инженерии и наук о управлении, 2011, с. 393-397 |
| [DSRBF] | Франциско Фернандес-Наварро и Сезар Хервас-Мартинес и Педро Антонио Гутьеррес, «Динамическая процедура переизмещения, основанная на чувствительности к многословным проблемам», распознавание шаблонов, 2011, с. 1821-1833 |
| [Gaussian_smote] | Hansoo Lee и Jonggeun Kim и Sungshin Kim, «Гауссовый алгоритм удара по решению искаженных классовых распределений», Int. J. Fuzzy Logic and Intelligent Systems, 2017, с. 229-234 |
| [kmeans_smote] | Джорджиос Доузас и Фернандо Бакао и Феликс в последний раз, «улучшая несбалансированное обучение с помощью эвристического метода перенастремления на основе K -средних и ударов», Информационные науки, 2018, с. 1 - 20 |
| [Наблюдал_SMOTE] | Ху, Джун и он, Сюэ и Ю, Донг-Джун и Ян, Си-Бей и Ян, Цзин-Ю и Шен, Хонг-бин, «Новый алгоритм надзора над надзором с применением к белково-нуклеотидным остаткам» , PLOS One, 2014, с. 1-10 |
| [Sn_smote] | GARC {'i}, «Окружающий по соседству Smote для обучения из несбалансированных наборов данных», Прогресс в искусственном интеллекте, 2012, с. 347--362 |
| [CCR] | Koziarski, Michał и Wozniak, Michal, «CCR: комбинированный алгоритм очистки и повторной дискретиза |
| [Анс] | Siriseriwan, W и Sinapiromsaran, Krung, «Адаптивное соседское синтетическое меньшинство техники перегрузки под обработкой 1NN», Songklanakarin Journal of Science and Technology, 2017, с. 565-576 |
| [cluster_smote] | Cieslak, DA и Chawla, NV and Strigel, A., «Боеприпасы дисбаланса в наборах данных сети», 2006 IEEE International Conference on Granular Computing, 2006, с. 732-737 |
| [Symprod] | Kunakorntum, I. и Hinthong, W. и Phunchongharn, P., «Синтетическое меньшинство, основанное на вероятностном распределении (Symprod). |
| [Smotewb] | Sağlam, F. и Cengiz, MA, «Новый метод повторной выборки на основе ударов, обнаружение шума и процедура повышения», экспертные системы с приложениями, 2022, с. 117023 |