电力预测竞争
比赛由DSP和Taipower在台湾举行。我与Lawrencesiao合作。他是我最好的队友和数据科学的导师。他帮助我确实具有工程学和微调预测模型,以达到最高排名。如果您有任何兴趣,可以在这里看到他的github(https://github.com/lawrencesiao)
问题陈述
很长一段时间以来,台湾经常遭受造成大量停电的台风。例如,最有害的台风SOUDELOR(2015/08)在台湾带来了大约450万次停电。鉴于此,建立有弹性的城市以防止未来的损失变得越来越重要。因此,比赛希望参赛者能够制定准确且适用的预测模型,以帮助台湾提前准备。
鉴于2014年至2016年台风引起的停电数据,预测了Megi(2016)和Nesat&Haitang(2017)台风引起的停电数量。
数据集
火车数据集包括8个历史性台风(2014-2016)及其在台湾村庄的损失(停电)。

我们旨在预测测试数据集中Megi和Nesat&Haitang Typhoon引起的停电(使用0初始化)。

时间表
从:2017年9月20日开始
关闭:2017年11月20日
措施
基于Morisita-Horn相似性指数的精度
方法
数据收集
由于缺乏解释变量,我们不得不从政府开放数据中收集功能。我们认为停电的原因主要来自公用事业电线杆的掉落。因此,不仅台风强度本身,我们还收集了与此原因密切相关的数据。我们使用的所有开放数据都在参考中列出,但是我们刚刚提到了下面的关键数据集和功能。
功能工程
- 台风轨道
因此,台风的强度随时间变化。因此,我们创建了重要的特征,以解释台风对物理学见解的影响。该度量由“通过村庄和台风之间的平方距离调节的最大台风强度”计算。 - 风
考虑到强风可能会吹干公用极线,我们从每个台风的区域观察站收集了小时的风向和速度数据。我们创建了最大,最小值,平均等。属性以解释风对从小时,白天到整个台风时期水平的村庄的影响。 - 雨量
考虑到大雨可能会损害公用极线,我们从每个台风的区域观察站收集了每小时累积的降雨数据。不仅最大,最小,平均等。与分配相关的属性,我们还根据中心气象局的降雨标准创建了功能,以解释降雨对从小时,日至整个台风期间的影响。 - 实用杆
我们考虑了公用极线的数量及其类型很重要。前者隐含地表示潜在的停电数量,后者揭示了什么样的公用电极很脆弱。因此,我们创建了总实用极极数和每种类型的数量来解释公用极线的影响。 - 地球人口统计学我们认为人口密度和功率使用结构与电力中断高度相关。因此,我们用它们来解释村庄之间的差异。
造型
在村庄中并非所有时间都没有发生停电,因此我们必须仔细处理此不平衡数据问题。我们使用带有分层交叉验证方法的随机森林回归器来平衡每个验证集中数据(遭受停电的村庄的百分比),并确定最佳的超参数。
结果
我们是团队下次再加油,在排行榜上获得第六奖

改进
- 我们应该在数据插补方面做更多的努力,尤其是对于台湾村庄的公用事业数量。由于缺乏少数村庄的公用电极数据,我们可以考虑使用类似的网格插补,例如KNN来基于人口统计学或其他特征来估算价值。
- 我们发现随机森林和XGBoost模型之间的性能差异很大,这表明方差偏见权衡。我们应该微调两种模型,以使堆叠模型的表现优于任何一个sigle。
- 我们使用了来自33个区域观察站的降雨和风数据。也许添加额外的510个自动观测站可以使模型更合适。
- 由于观测站记录的风和降雨数据,我根据“最短的欧几里得距离”将一个观察站分配给每个村庄,我代表村庄的中心坐标代表了村庄的坐标。我认为可能有更合适的方法可以做到并获得更好的结果。
参考
- DSP竞赛网站:https://dc.dsp.im/main/content/typhoon-caused-power-power-power-pardiction-prediction-challenge
- 台风警报:http://rdc28.cwb.gov.tw/tdb/ntdb/pagecontrol/ty_warning
- 台风风:http://rdc28.cwb.gov.tw/tdb/ntdb/pagecontrol/windsearch
- 台风降雨:http://rdc28.cwb.gov.tw/tdb/ntdb/pagecontrol/rain
- 台风轨道:http://rdc28.cwb.gov.tw/tdb/ctrl_advanced_search
- 实用杆:https://data.gov.tw/dataset/33305
- 乡村人口密度:https://data.gov.tw/dataset/8410
- 家用,行业等的电力使用百分比:https://data.gov.tw/dataset/38959
- 村庄的电力使用:https://data.gov.tw/dataset/14135
- 滑坡警报:https://246.swcb.gov.tw/opendata.aspx
- 照明:https://data.gov.tw/dataset/9712