Promension de puissance
Le concours a été organisé par DSP et Tailipower à Taiwan. Je me suis associé à Larencessiao . Il est mon meilleur coéquipier et mentor en science des données. Il m'a aidé à présenter l'ingénierie et un modèle prédictif affiné pour atteindre le rang supérieur. Si vous avez un intérêt, vous pouvez voir son github ici (https://github.com/lawrencessiao)
Déclaration de problème
Pendant longtemps, Taiwan souffre souvent de typhons qui provoquent de nombreuses pannes de courant. Par exemple, Soudelor (2015/08) , le typhon le plus nocif, apporte environ 4500 milliers de pannes de courant à Taiwan. À la lumière de cela, la construction de villes résilientes pour prévenir les dommages futurs devient de plus en plus importante. Par conséquent, la compétition espérait que les candidats pourraient créer des modèles prédictifs précis et applicables pour aider Taiwan à se préparer à l'avance.
Compte tenu des données sur les pannes de courant causées par le typhon de 2014 à 2016, prédisez le nombre de pannes de courant causées par Megi (2016) et Nesat & Haitang (2017) Typhoon.
Ensemble de données
L'ensemble de données de train comprend 8 typhons historiques (2014-2016) et leurs dommages (pannes de courant) sur chaque village de Taiwan.

Nous visons à prédire les pannes de courant causées par Megi et Nesat & Haitang Typhoon dans le jeu de données de test (initialisé avec 0).

Chronologie
Commence à: 20 septembre 2017
Fermé le: 20 novembre 2017
Mesure
Précision basée sur l'indice de similitude de Morisita-Horn
Méthode
Collection de données
En raison du manque de variables explicatives, nous avons dû collecter des fonctionnalités des données ouvertes du gouvernement. Nous pensions que les causes des pannes de courant proviennent principalement de la baisse des poteaux utilitaires. Par conséquent, non seulement l'intensité du typhon elle-même, mais nous collectons également des données fortement liées à cette cause. Toutes les données ouvertes que nous avons utilisées sont répertoriées en référence, mais nous venons de mentionner les ensembles de données et les fonctionnalités clés ci-dessous.
Ingénierie de caractéristiques
- Piste de typhon
L'intensité du typhon a changé le long du temps. Nous avons donc créé une caractéristique importante pour expliquer l'influence du typhon sur chaque village à partir de la physique de la physique. La métrique est calculée par "l'intensité maximale du typhon ajustée par la distance carrée entre le village et le typhon". - Vent
Étant donné que le vent fort pourrait souffler les poteaux utilitaires, nous avons collecté la direction du vent horaire et la vitesse des données des stations d'observation régionales pour chaque typhoons. Nous avons créé des attributs max, min, moyenne, etc. pour expliquer l'influence du vent sur les villages de l'heure, du jour au niveau du typhon entier. - Pluviométrie
Étant donné que de fortes pluies pourraient endommager les poteaux utilitaires, nous avons collecté des données de précipitations accumulées toutes les heures des stations d'observation régionales pour chaque typhoons. Non seulement les attributs max, min, moyenne, etc. liés à la distribution, mais nous avons également créé des caractéristiques basées sur la norme des précipitations du Bureau météorologique central pour expliquer l'influence des précipitations sur les villages de l'heure, du jour au niveau du typhon entier. - Poteau de service public
Nous avons considéré le nombre de poteaux utilitaires et leurs types sont importants. Le premier a implicitement indiqué le nombre potentiel de pannes de courant et le second a révélé quels types de pôles utilitaires sont vulnérables. Par conséquent, nous avons créé des nombres de pôles utilitaires totaux et les nombres de chaque type pour expliquer l'influence des poteaux utilitaires. - Géodémographique, nous pensions que la densité de population et la structure de la consommation de puissance sont fortement corrélées aux pannes de courant. Nous les utilisons donc pour expliquer la différence entre les villageois.
Modélisation
Les pannes de courant ne se sont pas produites toutes les fois dans les villages, nous avons donc dû faire face à ce problème de données de déséquilibre soigneusement. Nous avons utilisé un régresseur forestier aléatoire avec une méthode de validation croisée stratifiée pour équilibrer les données (le pourcentage de villages souffrant de pannes de courant) dans chaque ensemble de validation et déterminer les meilleurs hyper-paramètres.
Résultat
Nous sommes l'équipe下次再加油et avons obtenu le 6e prix de classement

Amélioration
- Nous devrions faire plus d'efforts sur l'imputation des données , en particulier pour le nombre de poteaux de services publics dans les villages de Taiwan. En raison du manque de données sur les pôles utilitaires dans quelques villages, nous pouvons envisager d'utiliser une imputation de grille similaire comme KNN pour imputer la valeur basée sur les fonctionnalités démographiques ou autres.
- Nous avons trouvé une grande différence de performance entre la forêt aléatoire et le modèle XGBOost, qui indiquait le compromis des biais de variance . Nous devons affiner deux types de modèles pour faire en sorte que le modèle d'empilement surpasse n'importe quel sigle.
- Nous avons utilisé des données de précipitations et de vent de 33 stations d'observation régionales. Peut-être que l'ajout de 510 stations d'observation automatisées peut améliorer le modèle.
- En raison des données sur le vent et les précipitations enregistrées par les stations d'observation, j'ai attribué une station d'observation à chaque village en fonction de la «distance euclidienne la plus courte» , que j'ai représenté les coordonnées des villages par leurs coordonnées centrales. Je pense qu'il peut y avoir des méthodes plus appropriées pour le faire et obtenir de meilleurs résultats.
Référence
- DSP Competition Site Web: https: //dc.dsp.im/main/content/typhoon-caused-power-stages-prediction-challenge
- Typhoon Alert: http://rdc28.cwb.gov.tw/tdb/ntdb/pageControl/ty_warning
- Typhoon Wind: http://rdc28.cwb.gov.tw/tdb/ntdb/pageControl/windsearch
- Typhoon Rouf-Fall: http://rdc28.cwb.gov.tw/tdb/ntdb/pageControl/Rain
- Typhoon Track: http://rdc28.cwb.gov.tw/tdb/ctrl_advanced_search
- Pole des services publics: https://data.gov.tw/dataset/33305
- Densité de la population du village: https://data.gov.tw/dataset/8410
- Pourcentage d'utilisation de l'énergie par ménage, industries, etc .: https://data.gov.tw/dataset/38959
- Utilisation de l'énergie par les villages: https://data.gov.tw/dataset/14135
- Alerte de glissement de terrain: https://246.swcb.gov.tw/opendata.aspx
- Éclairage: https://data.gov.tw/dataset/9712