Power-outage-prediksi-kompetisi
Kompetisi ini diadakan oleh DSP dan Taipower di Taiwan. Saya bekerja sama dengan Lawrencesiao . Dia adalah rekan setim dan mentor terbaik saya dalam ilmu data. Dia membantu saya melakukan fitur rekayasa dan model prediktif fine-tune untuk mencapai peringkat teratas. Jika Anda memiliki minat, Anda dapat melihat github -nya di sini (https://github.com/lawrencesiao)
Pernyataan masalah
Untuk waktu yang lama, Taiwan sering menderita topan yang menyebabkan banyak pemadaman listrik. Misalnya, Soudelor (2015/08) , topan paling berbahaya, membawa sekitar 4.500 ribu pemadaman listrik di Taiwan. Mengingat hal ini, membangun kota yang tangguh untuk mencegah kerusakan di masa depan menjadi semakin penting. Oleh karena itu, kompetisi berharap kontestan dapat membuat model prediktif yang akurat dan berlaku untuk membantu Taiwan dipersiapkan dengan baik terlebih dahulu.
Mengingat data pemadaman listrik yang disebabkan oleh topan dari 2014 hingga 2016, memprediksi jumlah pemadaman listrik yang disebabkan oleh Megi (2016) dan Nesat & Haitang (2017) topan.
Dataset
Dataset kereta termasuk 8 topan bersejarah (2014-2016) dan kerusakan mereka (pemadaman listrik) di setiap desa Taiwan.

Kami bertujuan untuk memprediksi pemadaman listrik yang disebabkan oleh MEGI dan Nesat & Haitang Typhoon dalam dataset uji (diinisialisasi dengan 0).

Timeline
Dimulai pada: 20 Sep 2017
Ditutup pada: 20 Nov 2017
Ukuran
Akurasi berdasarkan indeks kesamaan tanduk morisita
Metode
Pengumpulan data
Karena kurangnya variabel penjelas, kami harus mengumpulkan fitur dari data terbuka pemerintah. Kami pikir penyebab pemadaman listrik terutama dari jatuhnya tiang utilitas. Oleh karena itu, tidak hanya intensitas topan itu sendiri, kami juga mengumpulkan data yang sangat terkait dengan penyebab ini. Semua data terbuka yang kami gunakan tercantum dalam referensi, tetapi kami baru saja menyebutkan kumpulan data dan fitur utama di bawah ini.
Teknik fitur
- Trek topan
Intensitas topan berubah sepanjang waktu. Jadi kami menciptakan fitur penting untuk menjelaskan pengaruh topan pada setiap desa dari Fisika Wawasan. Metrik dihitung dengan "intensitas topan maksimum yang disesuaikan dengan jarak persegi antara desa dan topan". - Angin
Mempertimbangkan bahwa angin kencang dapat meledakkan kutub utilitas, kami mengumpulkan arah angin per jam dan kecepatan data dari stasiun pengamatan regional untuk setiap topan. Kami menciptakan atribut Max, Min, Mean, dll. Untuk menjelaskan pengaruh angin di desa -desa dari jam, hari hingga seluruh level periode topan. - Curah hujan
Mempertimbangkan bahwa hujan lebat dapat merusak kutub utilitas, kami mengumpulkan data curah hujan yang terakumulasi setiap jam dari stasiun pengamatan regional untuk setiap topan. Tidak hanya max, min, rata-rata, dll. Atribut terkait distribusi, kami juga membuat fitur berdasarkan standar curah hujan Biro Cuaca tengah untuk menjelaskan pengaruh curah hujan di desa-desa dari jam, hari ke seluruh level periode topan. - Tiang utilitas
Kami mempertimbangkan jumlah tiang utilitas dan jenisnya penting. Yang pertama secara implisit menunjukkan jumlah potensial pemadaman listrik dan yang terakhir mengungkapkan jenis kutub utilitas apa yang rentan. Oleh karena itu, kami menciptakan jumlah tiang utilitas total dan jumlah masing -masing jenis untuk menjelaskan pengaruh kutub utilitas. - Geo-demografis Kami pikir kepadatan populasi dan struktur penggunaan daya sangat berkorelasi dengan pemadaman listrik. Jadi kami menggunakannya untuk menjelaskan perbedaan antar desa.
Pemodelan
Pemadaman listrik tidak terjadi setiap saat di desa -desa, jadi kami harus berurusan dengan masalah data ketidakseimbangan ini dengan cermat. Kami menggunakan regressor hutan acak dengan metode validasi silang bertingkat untuk menyeimbangkan data (persentase desa yang menderita pemadaman listrik) di setiap set validasi dan menentukan hyper-parameter terbaik.
Hasil
Kami adalah tim下次再加油dan mendapat hadiah ke -6 di papan peringkat

Peningkatan
- Kita harus melakukan lebih banyak upaya pada imputasi data , terutama untuk jumlah tiang utilitas di desa -desa Taiwan. Karena kurangnya data tiang utilitas di beberapa desa, kami dapat mempertimbangkan untuk menggunakan imputasi grid serupa seperti KNN untuk menyalahkan nilai berdasarkan fitur demografis atau lainnya.
- Kami menemukan perbedaan kinerja yang besar antara model hutan acak dan xGBoost, yang menunjukkan variance-bias trade-off . Kita harus menyempurnakan dua jenis model untuk membuat model penumpukan mengungguli Sigle One.
- Kami menggunakan data curah hujan dan angin dari 33 stasiun pengamatan regional. Mungkin menambahkan 510 stasiun pengamatan otomatis dapat membuat model lebih baik.
- Karena data angin dan curah hujan yang dicatat oleh stasiun pengamatan, saya menugaskan satu stasiun pengamatan ke setiap desa berdasarkan 'jarak Euclidean terpendek' , yang saya mewakili koordinat desa dengan koordinat pusat mereka. Saya pikir mungkin ada metode yang lebih tepat untuk melakukannya dan mendapatkan hasil yang lebih baik.
Referensi
- Situs web kompetisi DSP: https: //dc.dsp.im/main/content/typhoon-cuused-power-outages-prediction-challenge
- Peringatan Topan: http://rdc28.cwb.gov.tw/tdb/ntdb/pagecontrol/ty_warning
- Topan angin: http://rdc28.cwb.gov.tw/tdb/ntdb/pagecontrol/windsearch
- Topan curah hujan: http://rdc28.cwb.gov.tw/tdb/ntdb/pagecontrol/rain
- Topan Track: http://rdc28.cwb.gov.tw/tdb/ctrl_advanced_search
- Tiang Utilitas: https://data.gov.tw/dataset/33305
- Kepadatan Populasi Desa: https://data.gov.tw/dataset/8410
- Persentase Penggunaan Daya menurut rumah tangga, industri, dll.: Https://data.gov.tw/dataset/38959
- Penggunaan Daya oleh Desa: https://data.gov.tw/dataset/14135
- Landslide Alert: https://246.swcb.gov.tw/opendata.aspx
- Pencahayaan: https://data.gov.tw/dataset/9712