Power-Outage-Vorhersage
Der Wettbewerb wurde von DSP und Taipower in Taiwan abgehalten. Ich habe mich mit Lawrencesiao zusammengetan. Er ist mein bester Teamkollege und Mentor in der Datenwissenschaft. Er hat mir geholfen, das technische und feinstimmige Vorhersagemodell zu finden, um den Top-Rang zu erreichen. Wenn Sie Interesse haben, können Sie hier seinen Github sehen (https://github.com/lawrenensiao)
Problemanweisung
Taiwan leidet für lange Zeit oft an Taifunen, die viele Stromausfälle verursachen. Zum Beispiel bringt Soudelor (2015/08) , der schädlichste Taifun, 4500 Tausend Stromausfälle in Taiwan. Vor diesem Hintergrund wird es immer wichtiger, dass belastbare Städte zur Verhinderung zukünftiger Schäden aufgebaut werden. Daher hoffte der Wettbewerb, dass die Teilnehmer genaue und anwendbare Vorhersagemodelle erstellen können, um Taiwan dabei zu helfen, im Voraus gut vorbereitet zu werden.
Angesichts der typhoon verursachten Stromausfälle von 2014 bis 2016 prognostizieren Sie die Anzahl der durch Megi (2016) und Nesat & Haitang (2017) verursachten Stromausfälle.
Datensatz
Der Zugdatensatz umfasst 8 historische Taifune (2014-2016) und deren Schäden (Stromausfälle) in jedem Taiwan-Dorf.

Wir wollen die Stromausfälle vorhersagen, die durch Megi und Nesat & Haitang Typhoon im Testdatensatz verursacht werden (initialisiert mit 0).

Zeitleiste
Beginnt bei: 20. September 2017
Geschlossen am: 20. November 2017
Messen
Genauigkeit basierend auf dem Morisita-Horn-Ähnlichkeitsindex
Verfahren
Datensammlung
Aufgrund mangelnder erklärender Variablen mussten wir Merkmale aus den offenen Daten der Regierung sammeln. Wir dachten, die Ursachen von Stromausfällen stammen hauptsächlich aus dem Fallen von Strompfasten. Daher sammeln wir auch nicht nur die Taifunintensität selbst, wir sammeln auch Daten, die sich stark mit dieser Ursache zusammenhängen. Alle von uns verwendeten offenen Daten sind in Bezug auf die Referenz aufgeführt, wir haben jedoch gerade die wichtigsten Datensätze und Funktionen unten erwähnt.
Feature Engineering
- Taifunstrecke
Die Intensität des Taifuns änderte sich mit der Zeit. Also haben wir ein wichtiges Merkmal erstellt, um den Einfluss des Taifuns auf jedes Dorf von Physics Insight zu erklären. Die Metrik wird durch "maximale Taifunintensität, die durch Quadratabstand zwischen Dorf und Taifun angepasst" berechnet wird. - Wind
In Anbetracht der Tatsache, dass starker Wind die Hilfsmasten niederblasen könnten, haben wir für jede Taifune stündliche Windrichtung und Geschwindigkeitsdaten von regionalen Beobachtungsstationen gesammelt. Wir haben Max, Min, Mittelwert usw. Attribute erstellt, um den Einfluss von Wind auf Dörfer von Stunde und Tag bis zum gesamten Taifon -Periode zu erklären. - Niederschlagsmenge
In Anbetracht der Tatsache, dass starker Regen die Nutzhalmpasten schädigen können, haben wir für jede Taifune stündlich akkumulierte Niederschlagsdaten von regionalen Beobachtungsstationen gesammelt. Nicht nur Max, Min, Mittelwert usw., die die Verteilungsattribute im Zusammenhang mit dem Niederschlagsstandard des Center Weather Bureau basieren, um den Einfluss von Niederschlägen auf Dörfer von Stunde und Tag bis zum gesamten Taifon-Periode zu erklären. - Versorgungsstange
Wir haben die Anzahl der Versorgungsstangen und ihre Typen in Betracht gezogen. Ersterer zeigte implizit die potenzielle Leistungsausfälle an, und die letzteren enthüllten, welche Arten von Nutzpolen gefährdet sind. Daher haben wir die Gesamtzahlen der Stromversorger und die Anzahl der einzelnen Typen erstellt, um den Einfluss von Versorgungsstangen zu erklären. - Geo-Demografische Wir dachten, die Bevölkerungsdichte und Struktur des Stromverbrauchs korrelieren stark mit Stromausfällen. Wir verwenden sie also, um den Unterschied zwischen den Bereichen zu erklären.
Modellieren
In den Dörfern wurden nicht immer Stromausfälle stattgefunden, daher mussten wir uns sorgfältig mit diesem Problem der Ungleichgewichtsdaten befassen. Wir verwendeten zufällige Forest-Regressor mit einer geschichteten Kreuzvalidationsmethode, um die Daten (den Prozentsatz der Dörfer, die Stromausfälle) in jedem Validierungssatz auszugleichen und die besten Hyperparameter zu bestimmen.
Ergebnis
Wir sind Team下次再加油und haben einen 6. Preis in der Rangliste

Verbesserung
- Wir sollten uns mehr Mühe auf die Datenimputation bemühen, insbesondere für die Anzahl der Versorgungsstangen in Taiwan -Dörfern. Aufgrund des Mangels an Nutzen -Pol -Daten in wenigen Dörfern können wir in Betracht ziehen, ähnliche Gitterimputationen wie KNN zu verwenden, um den Wert auf der Grundlage des demografischen oder anderen Merkmale zu unterstellen.
- Wir fanden einen großen Leistungsunterschied zwischen dem zufälligen Wald und dem Xgboost-Modell, das den Kompromiss zwischen Varianzbias zeigte. Wir sollten zwei Arten von Modellen gut abschneiden, damit das Stapelmodell jeden Sigle One übertrifft.
- Wir verwendeten Niederschlags- und Winddaten von 33 regionalen Beobachtungsstationen. Vielleicht können zusätzliche 510 automatisierte Beobachtungsstationen das Modell besser passen.
- Aufgrund von Wind- und Niederschlagsdaten, die von Beobachtungsstationen aufgezeichnet wurden, habe ich jedem Dorf eine Beobachtungsstation zugewiesen, basierend auf der "kürzesten euklidischen Distanz" , die ich durch ihre Zentralkoordinaten die Koordinaten der Dörfer darstellte. Ich denke, es gibt möglicherweise angemessenere Methoden, um es zu tun und bessere Ergebnisse zu erzielen.
Referenz
- DSP-Wettbewerbswebsite: https: //dc.dsp.im/main/content/typphoon-cault-power-outages-prediction-chalenge
- Typhoon Alert: http://rdc28.cwb.gov.tw/tdb/ntdb/pagecontrol/ty_warning
- Typhoon Wind: http://rdc28.cwb.gov.tw/tdb/ntdb/pagecontrol/windsearch
- Typhoon Niederschlag: http://rdc28.cwb.gov.tw/tdb/ntdb/pagecontrol/rain
- Typhoon Track: http://rdc28.cwb.gov.tw/tdb/ctrl_advanced_search
- Utility Pole: https://data.gov.tw/dataset/33305
- Dorfbevölkerungsdichte: https://data.gov.tw/dataset/8410
- Prozentsatz des Stromverbrauchs nach Haushalt, Industrie usw.: https://data.gov.tw/dataset/38959
- Stromverbrauch durch Dörfer: https://data.gov.tw/dataset/14135
- Landslide Alert: https://246.swcb.gov.tw/opendata.aspx
- Beleuchtung: https://data.gov.tw/dataset/9712