Power-Outge-Prediction-Competition
Конкурс проводился DSP и Taipower на Тайване. Я объединился с Lawrencesio . Он мой лучший товарищ по команде и наставник в науке о данных. Он помог мне сделать инженерную модель и предсказательную модель, чтобы достичь высшего звания. Если у вас есть какой -либо интерес, вы можете увидеть его GitHub здесь (https://github.com/lawrencesio)
Запись о проблеме
В течение долгого времени Тайвань часто страдает от тайфунов, которые вызывают много отключений электроэнергии. Например, Soudelor (2015/08) , самый вредный Typhoon, приводит около 4500 тысяч перебоев в электроэнергии на Тайване. В свете этого строительство устойчивых городов для предотвращения будущих ущерба становится все более и более важным. Таким образом, конкуренция надеялась, что участники смогут сделать точные и применимые прогнозирующие модели, чтобы помочь Тайвану быть хорошо подготовленными.
Учитывая данные об отключениях электроэнергии, связанные с Typhoon, с 2014 по 2016 год, прогнозируют количество перебоев в электроэнергии, вызванных Megi (2016) и Nesat & Haitang (2017) Typhoon.
Набор данных
Набор данных поезда включает в себя 8 исторических тайфунов (2014-2016) и их ущерб (перебои в электроэнергии) на каждой Тайваньской деревне.

Мы стремимся предсказать перебои в электроэнергии, вызванные Megi и Nesat & Haitang Typhoon в тестовом наборе данных (инициализировано с 0).

Временная шкала
Начинается в: 20 сентября 2017 г.
Закрыто: 20 ноября 2017 г.
Мера
Точность на основе индекса сходства Морисита-Хорна
Метод
Сбор данных
Из -за отсутствия объяснительных переменных нам пришлось собирать функции из открытых данных правительства. Мы думали, что причины отключений электроэнергии в основном связаны с падением полюсов полезных лиц. Следовательно, не только сама интенсивность тайфуна, мы также собираем данные, которые тесно связаны с этой причиной. Все открытые данные, которые мы использовали, перечислены в ссылке, но мы только что упомянули ключевые наборы данных и функции ниже.
Функциональная инженерия
- Typhoon Track
Интенсивность тайфуна изменилась в течение времени. Поэтому мы создали важную функцию, чтобы объяснить влияние тайфуна на каждую деревню из Physics Insight. Метрика рассчитывается по «максимальной интенсивности тайфунов, регулируемой квадратным расстоянием между деревней и тайфуном». - Ветер
Учитывая, что сильный ветер может взорвать полюса коммунальных услуг, мы собрали почасовые данные о направлении ветра и скорость скорости с региональных станций наблюдения для каждого тайфуна. Мы создали макс, мин, среднего и т. Д. Для объяснения влияния ветра на деревни от часа, дня до всего уровня периода тайфуна. - Осадки
Учитывая, что сильный дождь может повредить полюсам полезности, мы собрали почасовые данные о дождевых осадках с региональных станций наблюдения для каждого тайфуна. Не только макс, мин, среднее значение и т. Д. Связанные с распределением атрибуты, мы также создали функции, основанные на стандарте осадков в центре погоды, чтобы объяснить влияние количества осадков на деревни от часа, день до всего уровня периода тайфуна. - Утилита
Мы рассмотрели количество полезных столбов, и их типы важны. Первый неявно указывал на число потенциальных отключений электроэнергии, а последний выявил, какие виды полезного полюса уязвимы. Поэтому мы создали общее количество полюсных полюсов и числа каждых типов, чтобы объяснить влияние полюсов коммунальных услуг. - Гео-демография мы думали, что плотность населения и структура использования энергии сильно коррелируют с отключениями электроэнергии. Таким образом, мы используем их для объяснения различий между поставками.
Моделирование
Работающие за перебои не происходили в деревнях, поэтому нам пришлось осторожно решать эту проблему с данными дисбаланса. Мы использовали регрессор случайного леса со стратифицированным методом перекрестной проверки , чтобы сбалансировать данные (процент отключений от электроэнергии, страдающих от деревень), и определить лучшие гиперпараметры.
Результат
Мы команда и получили 6 -й приз в таблице лидеров

Улучшение
- Мы должны приложить больше усилий на вменение данных , особенно для количества коммунальных столбов в Тайваньских деревнях. Из -за отсутствия данных полюса в нескольких деревнях мы можем рассмотреть возможность использования аналогичного вменения сетки, например, для вмены значения на основе демографических или других функций.
- Мы обнаружили большую разницу в производительности между случайным лесом и моделью XGBOOST, которая указывала на компромисс с утечкой дисперсии . Мы должны точно настроить две виды моделей, чтобы сделать модель укладки превосходить любую сигле.
- Мы использовали данные о дождевых осадках и ветре с 33 региональных станций наблюдения. Возможно, добавление дополнительных 510 автоматизированных станций наблюдения может сделать модель лучше.
- Из -за данных о ветре и осадках, зарегистрированных станциями наблюдения, я назначил одну станцию наблюдения каждой деревне на основе «самого короткого евклидового расстояния» , которое я представлял координаты деревень по их центральным координатам. Я думаю, что могут быть более подходящие методы для этого и получить лучшие результаты.
Ссылка
- Веб-сайт конкурса DSP: https: //dc.dsp.im/main/content/typhoon-caused-power-outage-prediction-challenge
- Оповещение Typhoon: http://rdc28.cwb.gov.tw/tdb/ntdb/pagecontrol/ty_warning
- Ветер Typhoon: http://rdc28.cwb.gov.tw/tdb/ntdb/pagecontrol/windsearch
- Тайфун осадки: http://rdc28.cwb.gov.tw/tdb/ntdb/pagecontrol/rain
- Трек Typhoon: http://rdc28.cwb.gov.tw/tdb/ctrl_advanced_search
- Утилита: https://data.gov.tw/dataset/33305
- Плотность населения деревни: https://data.gov.tw/dataset/8410
- Процент использования электроэнергии по домохозяйствам, промышленности и т. Д.: https://data.gov.tw/dataset/38959
- Использование энергии по деревням: https://data.gov.tw/dataset/14135
- Оспользованное предупреждение: https://246.swcb.gov.tw/opendata.aspx
- Освещение: https://data.gov.tw/dataset/9712