전원-예약 경쟁
대만은 대만의 DSP 와 Taipower가 개최했습니다. 나는 Lawrencesiao 와 팀을 이루었습니다. 그는 데이터 과학에서 저의 최고의 팀원이자 멘토입니다. 그는 제가 엔지니어링과 미세 조정 예측 모델을 수행하여 최고 순위에 도달하도록 도와주었습니다. 관심이 있으시면 여기에서 그의 github를 볼 수 있습니다 (https://github.com/lawrencesiao).
문제 진술
오랫동안 대만은 종종 태풍으로 고통을 겪어 많은 정전을 유발합니다. 예를 들어, 가장 유해한 태풍 인 Soudelor (2015/08) 는 대만에서 약 450 만 명의 정전을 가져옵니다. 이에 비추어, 미래의 손상을 막기 위해 탄력성 도시를 건설하는 것이 점점 더 중요해집니다. 따라서 경쟁은 참가자들이 대만이 미리 준비 할 수 있도록 정확하고 적용 가능한 예측 모델을 만들 수 있기를 희망했습니다.
2014 년부터 2016 년까지의 태풍으로 인한 정전 데이터를 고려할 때 Megi (2016) 와 Nesat & Haitang (2017) Typhoon으로 인한 정전 수를 예측합니다.
데이터 세트
기차 데이터 세트에는 8 개의 역사적인 태풍 (2014-2016)과 각 대만 마을의 손해 (정전)가 포함됩니다.

우리는 테스트 데이터 세트에서 Megi 와 Nesat & Haitang Typhoon으로 인한 정전을 예측하는 것을 목표로합니다 (0으로 초기화).

타임 라인
시작 : 2017 년 9 월 20 일
폐쇄 : 2017 년 11 월 20 일
측정하다
Morisita-Horn 유사성 지수를 기반으로 한 정확도
방법
데이터 수집
설명 변수가 없기 때문에 정부 공개 데이터에서 기능을 수집해야했습니다. 우리는 정전의 원인이 주로 유틸리티 폴의 하락에서 비롯된 것이라고 생각했습니다. 따라서 태풍 강도 자체뿐만 아니라 이러한 원인과 밀접한 관련된 데이터도 수집합니다. 우리가 사용한 모든 공개 데이터는 참조로 나열되어 있지만 아래의 주요 데이터 세트와 기능을 언급했습니다.
기능 엔지니어링
- 태풍 트랙
태풍의 강도는 시간에 따라 바뀌 었습니다. 그래서 우리는 물리 통찰력에서 각 마을에 대한 태풍의 영향을 설명하는 중요한 기능을 만들었습니다. 메트릭은 "마을과 태풍 사이의 제곱 거리에 의해 조정 된 최대 태풍 강도"에 의해 계산됩니다. - 바람
강한 바람이 유틸리티 기둥을 날려 버릴 수 있다는 점을 고려하면 각 태풍에 대한 지역 전망대에서 시간당 바람 방향과 속도 데이터를 수집했습니다. 우리는 Max, Min, Mean 등을 만들었습니다. 시간, 날부터 태풍 기간 전체에서 마을에 대한 바람의 영향을 설명하기위한 속성. - 강우
폭우가 유틸리티 폴을 손상시킬 수 있다는 점을 고려할 때 각 태풍에 대한 지역 관측소에서 시간별 강우 데이터를 수집했습니다. Max, Min, Mean 등 분포 관련 속성뿐만 아니라 Center Weather Bureau의 강우 표준을 기반으로 한 기능을 만들어 시간, 낮, 태풍 기간 수준까지 마을에 대한 강우의 영향을 설명합니다. - 유틸리티 폴
우리는 유틸리티 폴의 수를 고려했으며 그 유형은 중요하다고 생각합니다. 전자는 암시 적으로 잠재적 인 정전 수를 나타내었고 후자는 어떤 종류의 유틸리티 폴이 취약한 지 밝혔다. 따라서 우리는 유틸리티 폴의 영향을 설명하기 위해 총 유틸리티 폴 숫자와 각 유형의 수를 만들었습니다. - 지구 학적 우리는 인구 밀도와 전력 사용의 구조가 정전과 밀접한 관련이 있다고 생각했습니다. 그래서 우리는 그들을 사용하여 사슴 간 차이를 설명합니다.
모델링
정전은 마을에서 항상 발생하지 않았 으므로이 불균형 데이터 문제를 신중하게 다루어야했습니다. 우리는 각 검증 세트에서 데이터의 균형을 맞추고 최상의 하이퍼 파라미터를 결정하기 위해 계층화 된 교차 검증 방법과 함께 임의의 산림 회귀자를 사용했습니다.
결과
우리는 팀 got got 이며 Leaderboard에서 6 번째 상을 받았습니다

개선
- 우리는 특히 대만 마을의 유틸리티 폴에 대해 데이터의 대치 에 더 많은 노력을 기울여야합니다. 소수의 마을에 유틸리티 폴 데이터가 부족하여 KNN과 같은 유사한 그리드 대치를 사용하여 인구 통계 또는 기타 기능을 기반으로 가치를 부과하는 것을 고려할 수 있습니다.
- Random Forest와 Xgboost 모델 사이의 성능 차이가 크게 발견되었으며, 이는 분산 바이어스 트레이드 오프를 나타냅니다. 스태킹 모델이 모든 시가를 능가하기 위해 두 가지 종류의 모델을 미세 조정해야합니다.
- 우리는 33 개의 지역 관측소의 강우와 바람 데이터를 사용했습니다. 추가 510 개의 자동 관찰 스테이션을 추가하면 모델을 더 잘 맞출 수 있습니다.
- 전망대에 의해 기록 된 바람과 강우 데이터로 인해, 나는 '가장 짧은 유클리드 거리'를 기반으로 각 마을에 하나의 전망대를 할당했는데, 이는 센터 좌표에 의해 마을 좌표를 대표했다. 나는 그것을 수행하고 더 나은 결과를 얻을 수있는 더 적절한 방법이있을 수 있다고 생각합니다.
참조
- DSP 경쟁 웹 사이트 : https : //dc.dsp.im/main/content/typhoon-caused-power-prediction-challenge
- 태풍 경고 : http://rdc28.cwb.gov.tw/tdb/ntdb/pagecontrol/ty_warning
- 태풍 바람 : http://rdc28.cwb.gov.tw/tdb/ntdb/pagecontrol/windsearch
- 태풍 강우 : http://rdc28.cwb.gov.tw/tdb/ntdb/pagecontrol/rain
- 태풍 트랙 : http://rdc28.cwb.gov.tw/tdb/ctrl_advanced_search
- 유틸리티 폴 : https://data.gov.tw/dataset/33305
- 마을 인구 밀도 : https://data.gov.tw/dataset/8410
- 가구, 산업 등의 전력 사용 백분율 : https://data.gov.tw/dataset/38959
- 마을의 전력 사용 : https://data.gov.tw/dataset/14135
- 산사태 경보 : https://246.swcb.gov.tw/opendata.aspx
- 조명 : https://data.gov.tw/dataset/9712