
-
- - -
- - - - - - - -
- - - - - - - - __ /| _____ | v /| -
- - - - - - - - -
smote-variants สำหรับการเรียนรู้ที่ไม่สมดุล
ข่าวล่าสุด
- 1.0.0 รีลีสหมดแล้ว
- เพิ่มเทคนิคการเปรียบเทียบ
- เพิ่ม Smotewb ขอบคุณ @Szghlm
- การใช้งานแบบเวกเตอร์สำหรับเทคนิคส่วนใหญ่เพื่อเพิ่มประสิทธิภาพ
- ชุดเครื่องมือการประเมินและการเลือกแบบจำลองที่ปรับปรุงใหม่และปรับปรุงใหม่
- ครอบคลุมการทดสอบ 100%
- 10.0 PEP8 Conformancy (โดย Pylint)
- polynom_fit_smote แยกเป็น 4 เทคนิคที่แตกต่างกัน
- Symprod เพิ่มเป็น 86th oversampler ที่ใช้งานขอบคุณ @intouchkun
การแนะนำ
แพคเกจใช้ 86 สายพันธุ์ของเทคนิคการสุ่มตัวอย่างของชนกลุ่มน้อยสังเคราะห์ (SMOTE) นอกเหนือจากการใช้งานเฟรมเวิร์กการเลือกแบบจำลองที่ใช้งานง่ายนั้นได้รับการจัดหาเพื่อเปิดใช้งานการประเมินอย่างรวดเร็วของเทคนิคการสุ่มตัวอย่างแบบ oversampling ในชุดข้อมูลที่มองไม่เห็น
เทคนิคที่นำไปใช้: [smote], [smote_tomeklinks], [smote_enn], [borderline_smote1], [borderline_smote2], [Adasyn], [AHC], [lle_smote], [ระยะทาง], [Smmo], [polynom_fit_fit] ], [adoms], [safe_level_smote], [msmote], [de_oversampling], [smobd], [sundo], [msyn], [svm_balance], [trim_smote], [smote_rsb] [nrsboundary_smote], [lvq_smote], [soi_cj], [rose], [smote_out], [smote_cosine], [selected_smote], [ln_smote], [mwmote], [pdfos], [ipade_id], [rwo_sampling] ], [Deago], [Gazzah], [MCT], [ADG], [SMOTE_IPF], [Kerneladasyn], [MOT2LD], [V_Synth], [oups], [SMOTE_D], [SMOTE_PSO] [Somo], [isomap_hybrid], [ce_smote], [edge_det_smote], [cbso], [e_smote], [dbsmote], [asmobd], [assembled_smote], [sdsmote], [dsmote], [G_SMOTE] ], [Lee], [Spy], [smote_psobat], [mdo], [random_smote], [ismote], [vis_rst], [gasmote], [a_suwo], [smote_frst_2t], [และ _Smote], [nras] [Amsco], [SSO], [NDO_SAMPLING], [DSRBF], [gaussian_smote], [kmeans_smote], [supervised_smote], [sn_smote], [ccr], [Ans], [Cluster_smote] ]
การเปรียบเทียบและการประเมินผล
สำหรับการเปรียบเทียบอย่างละเอียดและการประเมินผลของเทคนิคที่นำไปใช้ทั้งหมดให้ดูที่ link_to_comparison_paper
การอ้างอิง
หากคุณใช้แพ็คเกจนี้ในการวิจัยของคุณโปรดพิจารณาอ้างถึงเอกสารด้านล่าง
preprint อธิบายแพ็คเกจดู link_to_package_paper
bibtex สำหรับแพ็คเกจ:
@article { smote-variants ,
author = { Gy"orgy Kov'acs } ,
title = { smote-variants: a Python Implementation of 85 Minority Oversampling Techniques } ,
journal = { Neurocomputing } ,
note = { (IF-2019=4.07) } ,
volume = { 366 } ,
pages = { 352--354 } ,
year = { 2019 } ,
group = { journal } ,
code = { https://github.com/analyticalmindsltd/smote_variants } ,
doi = { 10.1016/j.neucom.2019.06.100 }
} สำหรับการพิมพ์ล่วงหน้าของการศึกษาเปรียบเทียบดู link_to_evaluation_paper
Bibtex สำหรับการเปรียบเทียบและการประเมินผล:
@article { smote-comparison ,
author = { Gy"orgy Kov'acs } ,
title = { An empirical comparison and evaluation of minority oversampling techniques on a large number of imbalanced datasets } ,
journal = { Applied Soft Computing } ,
note = { (IF-2019=4.873) } ,
volume = { 83 } ,
pages = { 105662 } ,
year = { 2019 } ,
link = { https://www.sciencedirect.com/science/article/pii/S1568494619304429 } ,
group = { journal } ,
code = { https://github.com/analyticalmindsltd/smote_variants } ,
doi = { 10.1016/j.asoc.2019.105662 }
} การติดตั้ง
แพ็คเกจสามารถโคลนจาก GitHub ได้ตามปกติและเวอร์ชันที่เสถียรล่าสุดยังมีอยู่ในที่เก็บ PYPI:
pip install smote-variants
เอกสาร
- สำหรับเอกสารโดยละเอียดโปรดดูที่ http://smote-variants.readthedocs.io
- สำหรับการสอน YouTube ตรวจสอบ https://www.youtube.com/watch?v=GSK7AKQPM60
แนวทางปฏิบัติที่ดีที่สุด
การทำให้เป็นมาตรฐาน/มาตรฐาน/การเลือกการปรับขนาด/คุณสมบัติ
เทคนิคการสุ่มตัวอย่างส่วนใหญ่ทำงานในพื้นที่ Euclidean โดยนัยโดยคุณลักษณะ ดังนั้นจึงเป็นเรื่องสำคัญอย่างยิ่งที่จะต้องทำให้แอตทริบิวต์เป็นมาตรฐานอย่างเหมาะสม โดยไม่มีความรู้เกี่ยวกับความสำคัญของคุณลักษณะการทำให้เป็นมาตรฐาน/มาตรฐานจึงเป็นความพยายามครั้งแรกที่ดี การมีความรู้ด้านโดเมนหรือความสำคัญของคุณลักษณะจากการจำแนกประเภท bootstrap การปรับขนาดของช่วงแอตทริบิวต์ตามความสำคัญของพวกเขาก็สมเหตุสมผลเช่นกัน อีกทางเลือกหนึ่งการเลือกชุดย่อยคุณสมบัติอาจปรับปรุงผลลัพธ์โดยการสุ่มตัวอย่างงานในพื้นที่ย่อยที่เหมาะสมที่สุด
การเลือกแบบจำลองสำหรับจำนวนตัวอย่างที่จะสร้าง
การจำแนกประเภทหลังการสุ่มตัวอย่างมีความไวสูงต่อจำนวนตัวอย่างของชนกลุ่มน้อยที่ถูกสร้างขึ้น การปรับสมดุลชุดข้อมูลนั้นไม่ค่อยเป็นตัวเลือกที่ถูกต้องเนื่องจากตัวจําแนกส่วนใหญ่ทำงานได้อย่างมีประสิทธิภาพมากที่สุดหากความหนาแน่นของตัวอย่างบวกและลบใกล้กับขอบเขตการตัดสินใจนั้นมีความเท่าเทียมกัน หาก manifolds ของคลาสบวกและลบไม่มีขนาดเท่ากันโดยประมาณการปรับสมดุลชุดข้อมูลไม่สามารถบรรลุเป้าหมายนี้ได้ ยิ่งไปกว่านั้นในบางภูมิภาคมันสามารถย้อนกลับสถานการณ์ได้: หากความหลากหลายของชนกลุ่มน้อยมีขนาดเล็กกว่าระดับเสียงข้างมากการปรับสมดุลจะเปลี่ยนชนกลุ่มน้อยให้กลายเป็นคนส่วนใหญ่ในสภาพแวดล้อมท้องถิ่นตามขอบเขตการตัดสินใจ
วิธีแก้ปัญหาคือการใช้การเลือกแบบจำลองสำหรับจำนวนตัวอย่างที่ถูกสร้างขึ้น เทคนิคเกือบทั้งหมดที่ใช้ในแพ็คเกจ `smote-variants` มีพารามิเตอร์ที่เรียกว่า `proportion` ' พารามิเตอร์นี้ควบคุมจำนวนตัวอย่างที่จะสร้างคือจำนวนตัวอย่างของชนกลุ่มน้อยที่สร้างขึ้นคือ `proportion*(N_maj - N_min)` นั่นคือการตั้งค่าพารามิเตอร์สัดส่วนเป็น 1 จะสร้างสมดุลของชุดข้อมูล ขอแนะนำอย่างยิ่งให้ทำการเลือกแบบจำลองข้ามที่ตรวจสอบแล้วสำหรับช่วงเช่น `proportion` = 0.1, 0.2, 0.5, 1.0, 2.0, 5.0
ตัวอย่างการใช้งาน
การสุ่มตัวอย่างแบบไบนารี
import smote_variants as sv
import imbalanced_databases as imbd
dataset = imbd . load_iris0 ()
X , y = dataset [ 'data' ], dataset [ 'target' ]
oversampler = sv . distance_SMOTE ()
# X_samp and y_samp contain the oversampled dataset
X_samp , y_samp = oversampler . sample ( X , y )
การสุ่มตัวอย่างแบบมัลติคลาส
import smote_variants as sv
import sklearn . datasets as datasets
dataset = datasets . load_wine ()
X , y = dataset [ 'data' ], dataset [ 'target' ]
oversampler = sv . MulticlassOversampling ( oversampler = 'distance_SMOTE' ,
oversampler_params = { 'random_state' : 5 })
# X_samp and y_samp contain the oversampled dataset
X_samp , y_samp = oversampler . sample ( X , y )การเลือกที่ดีที่สุดที่เกินขนาด
from sklearn . neighbors import KNeighborsClassifier
from sklearn . tree import DecisionTreeClassifier
import smote_variants as sv
import sklearn . datasets as datasets
dataset = datasets . load_breast_cancer ()
dataset = { 'data' : dataset [ 'data' ],
'target' : dataset [ 'target' ],
'name' : 'breast_cancer' }
classifiers = [( 'sklearn.neighbors' , 'KNeighborsClassifier' , {}),
( 'sklearn.tree' , 'DecisionTreeClassifier' , {})]
oversamplers = sv . queries . get_all_oversamplers ( n_quickest = 2 )
os_params = sv . queries . generate_parameter_combinations ( oversamplers ,
n_max_comb = 2 )
# samp_obj and cl_obj contain the oversampling and classifier objects which give the
# best performance together
samp_obj , cl_obj = sv . evaluation . model_selection ( dataset = dataset ,
oversamplers = os_params ,
classifiers = classifiers ,
validator_params = { 'n_splits' : 2 ,
'n_repeats' : 1 },
n_jobs = 5 )
# training the best techniques using the entire dataset
X_samp , y_samp = samp_obj . sample ( dataset [ 'data' ],
dataset [ 'target' ])
cl_obj . fit ( X_samp , y_samp )การรวมเข้ากับท่อ Sklearn
import smote_variants as sv
import imblearn . datasets as imb_datasets
from sklearn . model_selection import train_test_split , GridSearchCV
from sklearn . pipeline import Pipeline
from sklearn . preprocessing import StandardScaler
from sklearn . neighbors import KNeighborsClassifier
libras = imb_datasets . fetch_datasets ()[ 'libras_move' ]
X , y = libras [ 'data' ], libras [ 'target' ]
oversampler = ( 'smote_variants' , 'MulticlassOversampling' ,
{ 'oversampler' : 'distance_SMOTE' , 'oversampler_params' : {}})
classifier = ( 'sklearn.neighbors' , 'KNeighborsClassifier' , {})
# Constructing a pipeline which contains oversampling and classification
# as the last step.
model = Pipeline ([( 'scale' , StandardScaler ()),
( 'clf' , sv . classifiers . OversamplingClassifier ( oversampler , classifier ))])
model . fit ( X , y )การรวมเข้ากับการค้นหากริด Sklearn
import smote_variants as sv
import imblearn . datasets as imb_datasets
from sklearn . model_selection import train_test_split , GridSearchCV
from sklearn . pipeline import Pipeline
from sklearn . preprocessing import StandardScaler
from sklearn . neighbors import KNeighborsClassifier
libras = imb_datasets . fetch_datasets ()[ 'libras_move' ]
X , y = libras [ 'data' ], libras [ 'target' ]
oversampler = ( 'smote_variants' , 'MulticlassOversampling' ,
{ 'oversampler' : 'distance_SMOTE' , 'oversampler_params' : {}})
classifier = ( 'sklearn.neighbors' , 'KNeighborsClassifier' , {})
# Constructing a pipeline with oversampling and classification as the last step
model = Pipeline ([( 'scale' , StandardScaler ()),
( 'clf' , sv . classifiers . OversamplingClassifier ( oversampler , classifier ))])
param_grid = { 'clf__oversampler' :[( 'smote_variants' , 'distance_SMOTE' , { 'proportion' : 0.5 }),
( 'smote_variants' , 'distance_SMOTE' , { 'proportion' : 1.0 }),
( 'smote_variants' , 'distance_SMOTE' , { 'proportion' : 1.5 })]}
# Specifying the gridsearch for model selection
grid = GridSearchCV ( model ,
param_grid = param_grid ,
cv = 3 ,
n_jobs = 1 ,
verbose = 2 ,
scoring = 'accuracy' )
# Fitting the pipeline
grid . fit ( X , y ) ผลงาน
อย่าลังเลที่จะใช้เทคนิคการสุ่มตัวอย่างเพิ่มเติมใด ๆ และลองหารือเกี่ยวกับรหัสทันทีที่คำขอดึงพร้อม!
การอ้างอิง
| [smote] | Chawla, NV และ Bowyer, KW และ Hall, Lo และ Kegelmeyer, WP, "{smote}: ชนกลุ่มน้อยสังเคราะห์เกินกว่าการสุ่มตัวอย่าง", วารสารการวิจัยปัญญาประดิษฐ์, 2002, pp. 321--357 |
| [SMOTE_TOMEKLINKS] | Batista, Gustavo Eapa และ Prati, Ronaldo C. และ Monard, Maria Carolina, "การศึกษาพฤติกรรมของวิธีการหลายวิธีในการปรับสมดุลข้อมูลการฝึกอบรมการเรียนรู้ของเครื่อง", Sigkdd Explor Newsl., 2004, pp. 20--29 |
| [smote_enn] | Batista, Gustavo Eapa และ Prati, Ronaldo C. และ Monard, Maria Carolina, "การศึกษาพฤติกรรมของวิธีการหลายวิธีในการปรับสมดุลข้อมูลการฝึกอบรมการเรียนรู้ของเครื่อง", Sigkdd Explor Newsl., 2004, pp. 20--29 |
| [Borderline_smote1] | HA, "Borderline-Smote: วิธีการสุ่มตัวอย่างแบบใหม่ในการตั้งค่าข้อมูลที่ไม่สมดุล", ความก้าวหน้าในการคำนวณอัจฉริยะ, 2005, pp. 878--887 |
| [Borderline_smote2] | HA, "Borderline-Smote: วิธีการสุ่มตัวอย่างแบบใหม่ในการตั้งค่าข้อมูลที่ไม่สมดุล", ความก้าวหน้าในการคำนวณอัจฉริยะ, 2005, pp. 878--887 |
| [Adasyn] | เขา, H. และ Bai, Y. และ Garcia, Ea และ Li, S. , "{Adasyn}: วิธีการสุ่มตัวอย่างสังเคราะห์แบบปรับตัวสำหรับการเรียนรู้ที่ไม่สมดุล", การดำเนินการของ IJCNN, 2008, pp. 1322--1328 |
| [AHC] | Gilles Cohen และMélanie Hilario และ Hugo Sax และStéphane Hugonnet และ Antoine Geissbuhler "การเรียนรู้จากข้อมูลที่ไม่สมดุลในการเฝ้าระวังการติดเชื้อในโรงพยาบาล", ปัญญาประดิษฐ์ในการแพทย์, 2006, pp. 7 - 18 - 18 - 18 |
| [lle_smote] | Wang, J. และ Xu, M. และ Wang, H. และ Zhang, J. , "การจำแนกข้อมูลที่ไม่สมดุลโดยใช้อัลกอริทึม SMOTE และการฝังเชิงเส้นในท้องถิ่น", 2006 การประชุมนานาชาติครั้งที่ 8 เกี่ยวกับการประมวลผลสัญญาณ, 2006, pp. |
| [ระยะทาง _Smote] | De La Calleja, J. และ Fuentes, O. , "วิธีการสุ่มตัวอย่างระยะทางตามระยะทางสำหรับการเรียนรู้จากชุดข้อมูลที่ไม่สมดุล", การดำเนินการของหน่วยสืบราชการลับเทียมฟลอริดานานาชาติที่ยี่สิบ, 2007, pp. 634--635 |
| [SMMO] | De La Calleja, Jorge และ Fuentes, Olac และGonzález, Jesús, "การเลือกตัวอย่างชนกลุ่มน้อยจากข้อมูลที่จำแนกประเภทสำหรับการสุ่มตัวอย่างมากเกินไป" การดำเนินการประชุมสมาคมวิจัยข่าวกรองประดิษฐ์ระหว่างประเทศที่ยี่สิบเอ็ดครั้งแรก, 2008, หน้า 276-281 |
| [polynom_fit_smote] | Gazzah, S. และ Amara, Neb, "แนวทางการสุ่มตัวอย่างแบบใหม่ตามพหุนามที่เหมาะสมสำหรับชุดข้อมูลที่ไม่สมดุล", 2008 การประชุมเชิงปฏิบัติการระหว่างประเทศ IAPR ครั้งที่แปดเกี่ยวกับระบบการวิเคราะห์เอกสาร, 2008, pp. 677-684 |
| [Stefanowski] | Stefanowski, Jerzy และ Wilk, Szymon, "การคัดเลือกก่อนการประมวลผลข้อมูลที่ไม่สมดุลสำหรับการปรับปรุงประสิทธิภาพการจำแนกประเภท", การดำเนินการประชุมนานาชาติครั้งที่ 10 เกี่ยวกับคลังข้อมูลและการค้นพบความรู้, 2008, pp. 283--292 |
| [adoms] | Tang, S. และ Chen, S. , "กลไกการสร้างตัวอย่างชนกลุ่มน้อยสังเคราะห์", การประชุมนานาชาติปี 2008 เกี่ยวกับเทคโนโลยีสารสนเทศและการใช้งานใน Biomedicine, 2008, pp. 444-447 |
| [safe_level_smote] | Bunkhumpornpat, Chumphol และ Sinapiromsaran, Krung และ Lursinsap, Chidchanok, "Safe-level-smote: ชนกลุ่มน้อยที่มีระดับความปลอดภัยในการสุ่มตัวอย่างการประชุมเพื่อจัดการปัญหาที่ไม่สมดุล" และ Data Mining, 2009, pp. 475--482 |
| [MSMOTE] | Hu, Shengguo และ Liang, Yanfeng และ Ma, Lintao และ HE, Ying, "MSMOTE: การปรับปรุงประสิทธิภาพการจำแนกเมื่อข้อมูลการฝึกอบรมไม่สมดุล" --17 |
| [de_oversampling] | เฉิน, L. และ Cai, Z. และ Chen, L. และ Gu, Q. , "อัลกอริทึมการสุ่มตัวอย่างแบบไฮบริดแบบไฮบริดที่แตกต่างกันใหม่ในชุดข้อมูลที่ไม่สมดุล", 2010 การประชุมนานาชาติครั้งที่สามเกี่ยวกับการค้นพบความรู้และการขุดข้อมูล, 2010, pp. 81-85 |
| [SMOBD] | CAO, Q. และ Wang, S. , "การใช้เทคนิคการสุ่มตัวอย่างมากเกินไปตามความหนาแน่นของข้อมูลและ SVM ที่ไวต่อต้นทุนเพื่อการเรียนรู้ที่ไม่สมดุล", 2011 การประชุมนานาชาติเกี่ยวกับการจัดการข้อมูล, การจัดการนวัตกรรมและวิศวกรรมอุตสาหกรรม, 2011, หน้า 543-548 |
| [Sundo] | Cateni, S. และ Colla, V. และ Vannucci, M. , "วิธีการ resampling ใหม่สำหรับการจำแนกชุดข้อมูลที่ไม่สมดุลสำหรับปัญหาอุตสาหกรรมและปัญหาโลกแห่งความเป็นจริงอื่น ๆ ", 2011 การประชุมนานาชาติครั้งที่ 11 เกี่ยวกับการออกแบบระบบอัจฉริยะและแอพพลิเคชั่น, 2011, pp. 402-407 |
| [msyn] | FA, "วิธีการสุ่มตัวอย่างแบบใช้มาร์จิ้นสำหรับการเรียนรู้จากชุดข้อมูลที่ไม่สมดุล", ความก้าวหน้าในการค้นพบความรู้และการขุดข้อมูล, 2011, pp. 309--320 |
| [SVM_BALANCE] | Farquad, Mah และ Bose, Indranil, "การประมวลผลข้อมูลที่ไม่สมดุลล่วงหน้าโดยใช้เครื่องเวกเตอร์สนับสนุน", Decis สนับสนุน Syst., 2012, pp. 226--233 |
| [TRIM_SMOTE] | Puntumapo, "วิธีการตัดแต่งกิ่งสำหรับการค้นหาภูมิภาคที่แม่นยำและทั่วไปสำหรับชนกลุ่มน้อยสังเคราะห์เกินกว่าการสุ่มตัวอย่าง", ความก้าวหน้าในการค้นพบความรู้และการขุดข้อมูล, 2012, pp. 371--382 |
| [smote_rsb] | Ramento, "SMOTE-RSB*: วิธีการประมวลผลล่วงหน้าแบบไฮบริดโดยใช้การสุ่มตัวอย่างและการสุ่มตัวอย่างแบบไม่สมดุลสำหรับชุดข้อมูลที่ไม่สมดุลสูงโดยใช้ทฤษฎี SMOTE และทฤษฎีคร่าวๆ", ความรู้และระบบสารสนเทศ, 2012, หน้า 245--265 |
| [Prowsyn] | บารุ, "Prowsyn: เทคนิคการสุ่มตัวอย่างแบบสังเคราะห์ถ่วงน้ำหนักแบบใกล้เคียงสำหรับการเรียนรู้ชุดข้อมูลที่ไม่สมดุล", ความก้าวหน้าในการค้นพบความรู้และการขุดข้อมูล, 2013, pp. 317--328 |
| [SL_GRAPH_SMOTE] | Bunkhumpornpat, Chumpol และ Subpaiboonkit, Sitthichoke, "กราฟระดับปลอดภัยสำหรับเทคนิคการสังเคราะห์การสุ่มตัวอย่างน้อยมาก", การประชุมวิชาการนานาชาติครั้งที่ 13 เกี่ยวกับการสื่อสารและเทคโนโลยีสารสนเทศ, 2013, หน้า 570-575 |
| [nrsboundary_smote] | Feng, Hu and Hang, Li, "ขอบเขตการสุ่มตัวอย่างแบบนวนิยายที่ใช้งานได้โดยใช้แบบจำลองชุดขรุขระของพื้นที่ใกล้เคียง: NRSboundary-Smote", ปัญหาทางคณิตศาสตร์ในวิศวกรรม, 2013, pp. 10 |
| [LVQ_SMOTE] | Munehiro Nakamura และ Yusuke Kajiwara และ Atsushi Otsuka และ Haruhiko Kimura, "LVQ-Smote-การเรียนรู้การเรียนรู้ของชนกลุ่มน้อยสังเคราะห์ที่ใช้เวกเตอร์ |
| [SOI_CJ] | Sánchez, Atlántida I. และ Morales, Eduardo และ Gonzalez, Jesus, "การสังเคราะห์เกินจริงของอินสแตนซ์โดยใช้การจัดกลุ่ม", วารสารนานาชาติของเครื่องมือปัญญาประดิษฐ์, 2013, pp. |
| [ดอกกุหลาบ] | Menard, "การฝึกอบรมและประเมินกฎการจำแนกประเภทด้วยข้อมูลที่ไม่สมดุล", การขุดข้อมูลและการค้นพบความรู้, 2014, หน้า 92--122 |
| [smote_out] | Fajri Koto, "Smote-Out, Smote-Cosine และ Selected-Smote: กลยุทธ์การปรับปรุงเพื่อจัดการกับความไม่สมดุลในระดับข้อมูล", 2014 การประชุมนานาชาติเกี่ยวกับวิทยาศาสตร์คอมพิวเตอร์ขั้นสูงและระบบสารสนเทศ, 2014, หน้า 280-284 |
| [smote_cosine] | Fajri Koto, "Smote-Out, Smote-Cosine และ Selected-Smote: กลยุทธ์การปรับปรุงเพื่อจัดการกับความไม่สมดุลในระดับข้อมูล", 2014 การประชุมนานาชาติเกี่ยวกับวิทยาศาสตร์คอมพิวเตอร์ขั้นสูงและระบบสารสนเทศ, 2014, หน้า 280-284 |
| [selected_smote] | Fajri Koto, "Smote-Out, Smote-Cosine และ Selected-Smote: กลยุทธ์การปรับปรุงเพื่อจัดการกับความไม่สมดุลในระดับข้อมูล", 2014 การประชุมนานาชาติเกี่ยวกับวิทยาศาสตร์คอมพิวเตอร์ขั้นสูงและระบบสารสนเทศ, 2014, หน้า 280-284 |
| [ln_smote] | Maciejewski, T. และ Stefanowski, J. , "การขยายพื้นที่ใกล้เคียงในท้องถิ่นของ Smote สำหรับการขุดข้อมูลที่ไม่สมดุล", 2011 การประชุมวิชาการ IEEE เกี่ยวกับข่าวกรองการคำนวณและการขุดข้อมูล (CIDM), 2011, pp. 104-111 |
| [MWMOTE] | Barua, S. และ Islam, MM และ Yao, X. และ Murase, K. , "MWMOTE-การสุ่มตัวอย่างของชนกลุ่มน้อยที่มีน้ำหนักมากเกินไปสำหรับการเรียนรู้ชุดข้อมูลที่ไม่สมดุล", การทำธุรกรรม IEEE เกี่ยวกับความรู้และวิศวกรรมข้อมูล, 2014, pp. 405-425 |
| [pdfos] | Ming Gao และ Xia Hong และ Sheng Chen และ Chris J. Harris และ Emad Khalaf, "PDFOS: การประมาณค่า PDF ตามการสุ่มตัวอย่างเกินกว่าสำหรับปัญหาสองระดับที่ไม่สมดุล", Neurocomputing, 2014, pp. 248-259 |
| [IPADE_ID] | Victoria Lópezและ Isaac Triguero และCristóbal J. Carmona และ Salvador Garcíaและ Francisco Herrera, "การจัดหมวดหมู่ที่ไม่สมดุลกับเทคนิคการสร้างอินสแตนซ์: ipade -id", Neurocomputing, 2014, pp. 15 - 28 - 28 - 28 - 28 - 28 |
| [rwo_sampling] | จาง, Huaxzhang และ Li, Mingfang, "RWO-Sampling: วิธีการเดินผ่านการสุ่มตัวอย่างเพื่อการจำแนกข้อมูลที่ไม่สมดุล", ข้อมูลฟิวชั่น, 2014, pp |
| [Neater] | Almogahed, BA และ Kakadiaris, IA, "Neater: การกรองข้อมูลที่มีตัวอย่างมากเกินไปโดยใช้ทฤษฎีเกมที่ไม่ร่วมมือ", 2014 การประชุมนานาชาติครั้งที่ 22 เกี่ยวกับการจดจำรูปแบบ, 2014, หน้า 1371-1376 |
| [Deago] | Bellinger, C. และ Japkowicz, N. และ Drummond, C. , "Synthetic Overampling สำหรับการตรวจจับภัยคุกคามกัมมันตภาพรังสีขั้นสูง", 2015 การประชุมนานาชาติ IEEE ครั้งที่ 14 เกี่ยวกับการเรียนรู้ของเครื่องจักรและการใช้งาน (ICMLA), 2015, pp. 948-953 |
| [Gazzah] | Gazzah, S. และ Hechkel, A. และ Essoukri Ben Amara, N. , "วิธีการสุ่มตัวอย่างแบบไฮบริดสำหรับข้อมูลที่ไม่สมดุล", 2015 IEEE 12 การประชุมหลายครั้งระหว่างประเทศที่ 12 เกี่ยวกับระบบ, อุปกรณ์สัญญาณ (SSD15), 2015, pp. 1-6 |
| [MCT] | Jiang, Liangxiao และ Qiu, Chen and Li, Chaoqun, "เทคนิคการโคลนนิ่งของชนกลุ่มน้อยสำหรับการเรียนรู้ที่ไวต่อต้นทุน", วารสารการจดจำรูปแบบนานาชาติและปัญญาประดิษฐ์, 2015, pp. 1551004 |
| [ADG] | Pourhabib, A. และ Mallick, Bani K. และ Ding, Yu, "เทคนิคการโคลนนิ่งของชนกลุ่มน้อยสำหรับการเรียนรู้ที่ไวต่อต้นทุน", วารสารการวิจัยการเรียนรู้ของเครื่อง, 2015, หน้า 2695--2724 |
| [smote_ipf] | José A. SáezและJulián Luengo และ Jerzy Stefanowski และ Francisco Herrera, "Smote - IPF: แก้ไขปัญหาตัวอย่างที่มีเสียงดังและเส้นเขตแดนในการจำแนกประเภทที่ไม่สมดุลโดยวิธีการสุ่มตัวอย่างด้วยการกรอง" วิทยาศาสตร์สารสนเทศปี 2558 |
| [Kerneladasyn] | Tang, B. และ He, H. , "Kerneladasyn: การสร้างข้อมูลสังเคราะห์แบบปรับตัวตามเคอร์เนลสำหรับการเรียนรู้ที่ไม่สมดุล", 2015 IEEE Congress เกี่ยวกับการคำนวณวิวัฒนาการ (CEC), 2015, pp. 664-671 |
| [mot2ld] | XI, "วิธีการสุ่มตัวอย่างของชนกลุ่มน้อยสังเคราะห์ขึ้นอยู่กับความหนาแน่นของท้องถิ่นในพื้นที่มิติต่ำสำหรับการเรียนรู้ที่ไม่สมดุล", ระบบฐานข้อมูลสำหรับแอปพลิเคชันขั้นสูง, 2015, pp. 3--18 |
| [v_synth] | Young, II, William A. และ Nykl, Scott L. และ Weckman, Gary R. และ Chelberg, David M. , "การใช้ไดอะแกรม Voronoi เพื่อปรับปรุงประสิทธิภาพการจำแนกประเภทเมื่อสร้างแบบจำลองชุดข้อมูลที่ไม่สมดุล", การคำนวณทางประสาท Appl., 2015, pp. 1041--1054 |
| [OUPS] | William A. Rivera และ Petros Xanthopoulos, "วิธีการสุ่มตัวอย่างแบบสังเคราะห์เบื้องต้นสำหรับการเพิ่มความไวการจำแนกประเภทในชุดข้อมูลที่ไม่สมดุล", ระบบผู้เชี่ยวชาญพร้อมแอปพลิเคชัน, 2016, pp. 124 - 135 |
| [smote_d] | Torre, "Smote-D รุ่น Smote", การจดจำรูปแบบ, 2016, pp. 177--188 |
| [smote_pso] | Jair Cervantes และ Farid Garcia-Lamont และ Lisbeth Rodriguez และAsdrúbalLópezและJosé Ruiz Castilla และ Adrian Trueba, "วิธีการที่ใช้ PSO สำหรับการจำแนกประเภท SVM ในชุดข้อมูลที่เบ้", Neurocputing, 2017, pp. 187-197 |
| [CURE_SMOTE] | M, "อัลกอริทึมการรักษาสโมตต์และอัลกอริทึมไฮบริดสำหรับการเลือกคุณสมบัติและการเพิ่มประสิทธิภาพพารามิเตอร์ตามป่าสุ่ม", BMC bioinformatics, 2017, pp. 169 |
| [SOMO] | Georgios Douzas และ Fernando Bacao, "แผนที่การจัดระเบียบตัวเอง oversampling (SOMO) สำหรับการเรียนรู้ชุดข้อมูลที่ไม่สมดุล", ระบบผู้เชี่ยวชาญพร้อมแอปพลิเคชัน, 2017, pp. 40 - 52 |
| [isomap_hybrid] | Gu, Qiong และ Cai, Zhihua และ Zhu, Li, "การจำแนกประเภทของชุดข้อมูลที่ไม่สมดุลโดยใช้อัลกอริทึมการสุ่มตัวอย่างแบบไฮบริดตาม ISOMAP" การดำเนินการประชุมวิชาการนานาชาติครั้งที่ 4 -296 |
| [CE_SMOTE] | Chen, S. และ Guo, G. และ Chen, L. , "วิธีการสุ่มตัวอย่างแบบใหม่ที่ใช้งานคลัสเตอร์วงดนตรี", 2010 การประชุมนานาชาติ IEEE ครั้งที่ 24 เกี่ยวกับเครือข่ายข้อมูลขั้นสูงและการประชุมเชิงปฏิบัติการแอปพลิเคชัน, 2010, pp. 599-604 |
| [edge_det_smote] | Kang, Y. และ Won, S. , "อัลกอริทึมการตัดสินใจน้ำหนักสำหรับเทคนิคการสุ่มตัวอย่าง oversampling เกี่ยวกับการเรียนรู้ระดับสูง", ICCAS 2010, 2010, pp. 182-186 |
| [CBSO] | บารุ, "เทคนิคการสุ่มตัวอย่างที่เกินความจริงใหม่สำหรับการเรียนรู้ชุดข้อมูลที่ไม่สมดุล", การประมวลผลข้อมูลระบบประสาท, 2011, pp. 735--744 |
| [E_SMOTE] | Deepa, T. และ Punithavalli, M. , "เทคนิค E-smote สำหรับการเลือกคุณสมบัติในชุดข้อมูลที่ไม่สมดุลในมิติสูง", 2011 การประชุมนานาชาติครั้งที่ 3 เกี่ยวกับเทคโนโลยีคอมพิวเตอร์อิเล็กทรอนิกส์, 2011, pp. 322-324 |
| [dbsmote] | Bunkhumpornpa, "DBSMOTE: ความหนาแน่นของชนกลุ่มน้อยสังเคราะห์ในการสุ่มตัวอย่าง", Applied Intelligence, 2012, pp. 664--684 |
| [ASMOBD] | Senzhang Wang และ Zhoujun Li และ Wenhan Chao และ Qinghua Cao "การใช้เทคนิคการสุ่มตัวอย่างแบบปรับตัวได้ตามความหนาแน่นของข้อมูลและ SVM ที่ไวต่อต้นทุนเพื่อการเรียนรู้ที่ไม่สมดุล" การประชุมร่วมกันระหว่างประเทศ 2012 เกี่ยวกับเครือข่ายประสาท -8 |
| [ASSEMBLED_SMOTE] | Zhou, B. และ Yang, C. และ Guo, H. และ Hu, J. , "SVM กึ่งเชิงเส้นรวมกับ SMOTE ที่ประกอบเข้าด้วยกันสำหรับการจำแนกข้อมูลที่ไม่สมดุล", การประชุมร่วมระหว่างประเทศ 2013 เกี่ยวกับเครือข่ายประสาท (IJCNN), 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013 pp. 1-7 |
| [SDSMOTE] | Li, K. และ Zhang, W. และ Lu, Q. และ Fang, X. , "วิธีการจำแนกข้อมูลที่ไม่สมดุลของ SMOT , pp. 34-38 |
| [DSMOTE] | Mahmoudi, S. และ Moradi, P. และ Akhlaghian, F. และ Moradi, R. , "ความหลากหลายและตัวชี้วัดที่แยกกันไม่ออกในเทคนิคการสุ่มตัวอย่างมากเกินไปสำหรับการจำแนกข้อมูลที่ไม่สมดุล", 2014 การประชุมนานาชาติครั้งที่ 4 เกี่ยวกับคอมพิวเตอร์และวิศวกรรมความรู้ (ICCKE), 2014, 2014, 2014, 2014, 2014, 2014, 2014 , pp. 152-158 |
| [G_SMOTE] | Sandhan, T. และ Choi, JY, "การจัดการชุดข้อมูลที่ไม่สมดุลโดยการสุ่มตัวอย่างแบบไฮบริดที่มีไกด์บางส่วนสำหรับการจดจำรูปแบบ", 2014 การประชุมนานาชาติครั้งที่ 22 เกี่ยวกับการจดจำรูปแบบ, 2014, pp. 1449-1453 |
| [NT_SMOTE] | Xu, YH และ Li, H. และ LE, LP และ Tian, XY, "ชนกลุ่มน้อยสังเคราะห์ที่เป็นรูปสามเหลี่ยมในละแวกใกล้เคียงสำหรับการทำนายความไม่สมดุลของตัวอย่างเล็ก ๆ ของ บริษัท การท่องเที่ยวและการต้อนรับของจีน", 2014 การประชุมร่วมกันระหว่างประเทศครั้งที่เจ็ดเกี่ยวกับวิทยาศาสตร์การคำนวณและการเพิ่มประสิทธิภาพ , 2014, pp. 534-538 |
| [ลี] | Lee, Jaedong และ Kim, Noo-ri และ Lee, Jee-Hyong, "เทคนิคการสุ่มตัวอย่างมากเกินไปโดยการปฏิเสธการเรียนรู้ชั้นเรียนที่ไม่สมดุล", การประชุมนานาชาติครั้งที่ 9 เกี่ยวกับการจัดการข้อมูลและการสื่อสารที่แพร่หลาย, 2015, pp. 102: 1 -102: 6 |
| [สอดแนม] | Dang, XT และ Tran, DH และ Hirose, O. และ Satou, K. , "Spy: วิธีการใหม่ใหม่สำหรับการปรับปรุงประสิทธิภาพการจำแนกประเภทในข้อมูลที่ไม่สมดุล", 2015 การประชุมนานาชาติครั้งที่เจ็ดเกี่ยวกับความรู้และวิศวกรรมระบบ (KSE), 2015, pp . 280-285 |
| [smote_psobat] | Li, J. และ Fong, S. และ Zhuang, Y. , "การเพิ่มประสิทธิภาพ smote โดย metaheuristics ด้วยเครือข่ายประสาทและต้นไม้ตัดสินใจ", 2015 การประชุมวิชาการนานาชาติครั้งที่ 3 เกี่ยวกับการคำนวณและระบบธุรกิจอัจฉริยะ (ISCBI), 2015, pp. 26-32 |
| [MDO] | Abdi, L. และ Hashemi, S. , "เพื่อต่อสู้กับปัญหาที่ไม่สมดุลหลายระดับโดยใช้เทคนิคการสุ่มตัวอย่างมากเกินไป", ธุรกรรม IEEE เกี่ยวกับความรู้และวิศวกรรมข้อมูล, 2016, pp. 238-251 |
| [Random_smote] | ดอน "วิธีการสุ่มตัวอย่างแบบใหม่: แบบสุ่มสละเวลาสำหรับการเรียนรู้จากชุดข้อมูลที่ไม่สมดุล", ความรู้ Scienc, 2011, pp. 343--352 |
| [ismote] | L, "วิธีการสุ่มตัวอย่างแบบผสมผสานใหม่สำหรับข้อมูลที่ไม่สมดุล", การประชุมวิชาการอัตโนมัติของจีน 2013, 2013, หน้า 547--554 |
| [vis_rst] | Borowsk, "การจำแนกข้อมูลที่ไม่สมดุล: วิธีการสุ่มตัวอย่างใหม่ใหม่รวม Smote และชุดคร่าวๆที่ดีขึ้น", ระบบข้อมูลคอมพิวเตอร์และการจัดการอุตสาหกรรม, 2016, pp. 31--42 |
| [Gasmote] | Jian, "อัลกอริทึมใหม่สำหรับการจำแนกข้อมูลความไม่สมดุลบนพื้นฐานของอัลกอริทึมทางพันธุกรรมที่ดีขึ้น SMOTE", วารสารอาหรับสำหรับวิทยาศาสตร์และวิศวกรรม, 2016, pp. 3255--3266 |
| [a_suwo] | Iman Nekooeimehr และ Susana K. Lai-Yuen, "Adaptive Semi-unsupervised น้ำหนักเกิน (A-Suwo) สำหรับชุดข้อมูลที่ไม่สมดุล", ระบบผู้เชี่ยวชาญพร้อมแอปพลิเคชัน, 2016, pp. 405-4166666 |
| [SMOTE_FRST_2T] | Ramento, "การเรียนรู้ที่ไม่สมดุลของฟัซซี่-ความไม่สมดุลสำหรับการวินิจฉัยการบำรุงรักษาเบรกเกอร์วงจรแรงดันสูง: อัลกอริทึม SMOTE-FRST-2T", การใช้งานด้านวิศวกรรมของปัญญาประดิษฐ์, 2016, หน้า 134-139 |
| [และ _Smote] | Yun, Jaesub และ Ha, Jihyun และ Lee, Jong-Seok, "การกำหนดขนาดพื้นที่ใกล้เคียงโดยอัตโนมัติใน Smote", การประชุมนานาชาติครั้งที่ 10 เกี่ยวกับการจัดการข้อมูลและการสื่อสารที่แพร่หลาย, 2016, pp. 100: 1-100: 8: 8 |
| [NRAS] | William A. Rivera, "การลดเสียงรบกวนการสังเคราะห์การสุ่มตัวอย่างมากกว่าสำหรับชุดข้อมูลที่ไม่สมดุลของชั้นเรียน", ข้อมูลวิทยาศาสตร์, 2017, pp. 146 - 161 |
| [Amsco] | Jinyan Li และ Simon Fong และ Raymond K. Wong และ Victor W. Chu, "Fusion Swarm แบบหลายวัตถุประสงค์แบบปรับตัวสำหรับการจำแนกข้อมูลที่ไม่สมดุล", ข้อมูลฟิวชั่น, 2018, หน้า 1 - 24 |
| [SSO] | Ron, "ความไวสุ่มเกินเทคนิคการสุ่มตัวอย่างสำหรับข้อมูลที่ไม่สมดุล", การเรียนรู้ของเครื่องและไซเบอร์เนติกส์, 2014, pp. 161--171 |
| [NDO_SAMPLING] | Zhang, L. และ Wang, W. , "วิธีการสุ่มตัวอย่างใหม่สำหรับการเรียนรู้ความไม่สมดุลของชั้นเรียนด้วยข้อมูลเครดิต", 2011 การประชุมนานาชาติเทคโนโลยีสารสนเทศ, วิศวกรรมคอมพิวเตอร์และวิทยาศาสตร์การจัดการ, 2011, หน้า 393-397 |
| [DSRBF] | Francisco Fernández-Navarro และCésarHervás-Martínezและ Pedro Antonio Gutiérrez, "ขั้นตอนการสุ่มตัวอย่างแบบไดนามิกแบบไดนามิกบนพื้นฐานของความไวสำหรับปัญหาที่หลากหลาย", การจดจำรูปแบบ, 2011, pp. 1821-1833 |
| [gaussian_smote] | Hansoo Lee และ Jonggeun Kim และ Sungshin Kim, "อัลกอริทึม SMOTE ที่ใช้ Gaussian สำหรับการแก้ปัญหาการแจกแจงแบบเบ้", int. J. Fuzzy Logic และระบบอัจฉริยะ, 2017, pp. 229-234 |
| [kmeans_smote] | Georgios Douzas และ Fernando Bacao และ Felix Last "การปรับปรุงการเรียนรู้ที่ไม่สมดุลด้วยวิธีการสุ่มตัวอย่างแบบฮิวริสติกโดยใช้ K -Mean และ Smote" วิทยาศาสตร์สารสนเทศ 2018 หน้า 1 - 20 |
| [supervised_smote] | Hu, Jun และ He, Xue และ Yu, Dong-Jun และ Yang, Xi-Bei และ Yang, Jing-Yu และ Shen, Hong-Bin, "อัลกอริทึมการสุ่มตัวอย่างที่ผ่านการควบคุมใหม่พร้อมการประยุกต์ใช้กับการทำนายโปรตีน-นิวคลีโอไทด์ , Plos One, 2014, pp. 1-10 |
| [SN_SMOTE] | garc {'i}, "smote ตามพื้นที่ใกล้เคียงสำหรับการเรียนรู้จากชุดข้อมูลที่ไม่สมดุล", ความคืบหน้าในปัญญาประดิษฐ์, 2012, pp. 347--362 |
| [CCR] | Koziarski, Michałและ Wozniak, Michal, "CCR: อัลกอริทึมการทำความสะอาดและการรวมใหม่สำหรับการจำแนกข้อมูลที่ไม่สมดุล", วารสารคณิตศาสตร์ประยุกต์และวิทยาศาสตร์คอมพิวเตอร์นานาชาติ, 2017, pp. 727–736 |
| [Ans] | Siriseriwan, W และ Sinapiromsaran, Krung, "การปรับตัวของชนกลุ่มน้อยที่เป็นเพื่อนบ้าน |
| [Cluster_smote] | Cieslak, DA และ Chawla, NV และ Striegel, A. , "การต่อสู้กับความไม่สมดุลในชุดข้อมูลการบุกรุกเครือข่าย", 2006 การประชุมนานาชาติ IEEE เกี่ยวกับการคำนวณแบบละเอียด, 2006, pp. 732-737 |
| [symprod] | Kunakorntum, I. และ Hinthong, W. และ Phunchongharn, P. , "ชนกลุ่มน้อยสังเคราะห์ขึ้นอยู่กับการกระจายความน่าจะเป็น (symprod) การสุ่มตัวอย่างสำหรับชุดข้อมูลที่ไม่สมดุล", การเข้าถึง IEEE, 2020, pp. 114692 - 114704 |
| [Smotewb] | Sağlam, F. และ Cengiz, MA, "การตรวจจับเสียงรบกวนรางใหม่ที่ใช้ SMOTE แบบใหม่และขั้นตอนการส่งเสริม", ระบบผู้เชี่ยวชาญที่มีแอพพลิเคชั่น, 2022, pp. 117023 |