PERPUSTAKAAN PENDUKUP PEMBARUAN MESIN FITUR & Seleksi Fitur & Seleksi untuk Model yang Dapat Dijelaskan: Kursus Kedua untuk Ilmuwan Data
Modul Metaheuristicsfs membantu dalam mengidentifikasi kombinasi fitur yang memberikan hasil terbaik. Proses pencarian kombinasi terbaik disebut 'pemilihan fitur'. Perpustakaan ini menggunakan algoritma berbasis metaheuristik seperti algoritma genetika, anil simulasi, optimasi koloni semut, dan optimasi gerombolan partikel, untuk melakukan pemilihan fitur.
Parameter Pembelajaran Mesin: Ini umum untuk semua algoritma
columns_list : Nama kolom hadir dalam x_train_dataframe dan x_test yang akan digunakan sebagai daftar input untuk mencari daftar fitur terbaik.
data_dict : pelatihan x dan y dan data uji yang disediakan dalam format kamus. Di bawah ini adalah contoh data validasi silang 5 lipatan dengan kunci. {0: {'x_train': x_train_dataframe, 'y_train': y_train_array, 'x_test': x_test_dataframe, 'y_test': y_test_array}, 1: {'x_train': x_train_dataframe, 'y_train': y_train_array, 'x_test': x_test_dataframe, 'y_test': y_test_array}, 2: {'x_train': x_train_dataframe, 'y_train': y_train_array, 'x_test': x_test_dataframe, 'y_test': y_test_array}, 3: {'x_train': x_train_dataframe, 'y_train': y_train_array, 'x_test': x_test_dataframe, 'y_test': y_test_array}, 4: {'x_train': x_train_dataframe, 'y_train': y_train_array, 'x_test': x_test_dataframe, 'y_test': y_test_array}}
Jika Anda hanya memiliki data kereta dan pengujian dan tidak ingin melakukan validasi silang, gunakan format kamus di atas, dengan hanya satu kunci.
use_validation_data : Apakah Anda ingin menggunakan data validasi sebagai boolean benar atau salah. Nilai default benar. Jika salah, pengguna tidak perlu menyediakan x_validation_dataframe dan y_validation_dataframe
x_validation_dataframe : DataFrame yang berisi fitur dataset validoin. Default adalah pandaframe panda kosong.
y_validation_dataframe : DataFrame yang berisi variabel dependen dari dataset validasi. Default adalah pandaframe panda kosong.
model : Objek Model. Itu harus memiliki atribut .fit dan predikt
cost_function_improvement : Tujuannya adalah apakah meningkatkan atau mengurangi biaya selama iterasi berikutnya. Untuk regresi harus 'berkurang' dan untuk klasifikasi itu harus 'meningkat'
cost_function : Fungsi biaya untuk menemukan biaya antara nilai aktual dan yang diprediksi, tergantung pada masalah regresi atau klasifikasi. Fungsi biaya harus menerima 'aktual' dan 'diprediksi' sebagai array dan biaya pengembalian untuk keduanya.
average : Rata -rata untuk digunakan. Ini berguna untuk metrik klasifikasi seperti 'f1_score', 'jaccard_score', 'fbeta_score', 'precision_score', 'recall_score' dan 'roc_auc_score' ketika variabel dependen adalah multi-kelas adalah multi-kelas adalah multi-kelas
Parameter pemilihan fitur algoritma genetika (genetikagorithmfs) parameter
generations : Jumlah generasi yang menjalankan algoritma genetika. 100 sebagai tuli
population : Jumlah kromosom individu. 50 sebagai default. Itu harus disimpan sebagai jumlah rendah jika jumlah permutasi yang mungkin dan kombinasi set fitur kecil.
prob_crossover : Probabilitas crossover. 0.9 sebagai default
prob_mutation : Probabilitas mutasi. 0,1 sebagai default
run_time : Jumlah menit untuk menjalankan algoritma. Ini diperiksa di antara generasi. Pada awal setiap generasi diperiksa jika runtime telah melebihi dari waktu yang diberikan. Jika waktu yang dijalankan kasus melebihi batas yang diberikan, hasil terbaik dari generasi yang dieksekusi sejauh ini diberikan sebagai output. Default adalah 2 jam. yaitu 120 menit.
Simulasi Parameter Fitur Annealing (SimulatedAnnealingFS)
temperature : Suhu awal untuk anil. Default adalah 1500
iterations : berapa kali anil simulasi akan mencari solusi. Default adalah 100.
n_perturb : Jumlah set fitur kali akan terganggu dalam iterasi. Default adalah 1.
n_features_percent_perturb : Persentase fitur yang akan terganggu selama setiap gangguan. Nilai antara 1 dan 100.
alpha : Faktor reduksi suhu. Default adalah 0,9.
run_time : Jumlah menit untuk menjalankan algoritma. Ini diperiksa di antara generasi. Pada awal setiap generasi diperiksa jika runtime telah melebihi dari waktu yang diberikan. Jika waktu yang dijalankan kasus melebihi batas yang diberikan, hasil terbaik dari generasi yang dieksekusi sejauh ini diberikan sebagai output. Default adalah 2 jam. yaitu 120 menit.
Parameter Pilihan Fitur Optimasi Koloni Semut (AntcolonyoptimizationFS)
iterations : Jumlah kali optimasi koloni semut akan mencari solusi. Default adalah 100.
N_ants : Jumlah semut di setiap iterasi. Default adalah 100.
evaporation_rate : Tingkat penguapan. Nilai antara 0 dan 1. Jika terlalu besar, kemungkinan lebih tinggi untuk menemukan optima global, tetapi mahal secara komputasi. Jika rendah, kemungkinan menemukan Optima global lebih sedikit. Default disimpan sebagai 0,8.
Q : Koefisien Pembaruan Feromen. Nilai antara 0 dan 1. Ini mempengaruhi kecepatan konvergensi. Jika besar, ACO akan terjebak di Optima lokal. Default disimpan sebagai 0,2.
run_time : Jumlah menit untuk menjalankan algoritma. Ini diperiksa di antara generasi. Pada awal setiap generasi diperiksa jika runtime telah melebihi dari waktu yang diberikan. Jika waktu yang dijalankan kasus melebihi batas yang diberikan, hasil terbaik dari generasi yang dieksekusi sejauh ini diberikan sebagai output. Default adalah 2 jam. yaitu 120 menit.
Parameter pemilihan fitur optimisasi partikel (partikel -armoptimisasi) parameter
iterations : Jumlah kali optimasi partikel kawanan akan mencari solusi. Default adalah 100.
swarmSize : Ukuran gerombolan di setiap iterasi. Default adalah 100.
run_time : Jumlah menit untuk menjalankan algoritma. Ini diperiksa di antara generasi. Pada awal setiap generasi diperiksa jika runtime telah melebihi dari waktu yang diberikan. Jika waktu yang dijalankan kasus melebihi batas yang diberikan, hasil terbaik dari generasi yang dieksekusi sejauh ini diberikan sebagai output. Default adalah 2 jam. yaitu 120 menit.
MD Azimul Haque (2022). Teknik & Seleksi Fitur untuk Model yang Dapat Diterjemahkan: Kursus Kedua untuk Ilmuwan Data. Lulu Press, Inc.
pip install MetaHeuristicsFS