Power Outage-Prediction-competition
この競争は、台湾のDSPとTaipowerによって開催されました。 Lawrencesiaoとチームを組みました。彼は私の最高のチームメイトであり、データサイエンスのメンターです。彼は私が機能エンジニアリングを行い、予測モデルを微調整して、トップランクに到達するのを助けました。興味がある場合は、彼のgithubをここから見ることができます(https://github.com/lawrencesiao)
問題ステートメント
長い間、台湾は多くの停電を引き起こす台風に苦しんでいます。たとえば、最も有害な台風であるSoudelor(2015/08)は、台湾で約4500人の停電をもたらします。これに照らして、将来の損害を防ぐための回復力のある都市を建設することはますます重要になります。したがって、競争は、競技者が正確で適用可能な予測モデルを作って、台湾が事前に十分に準備されるのを助けることを望んでいました。
2014年から2016年までの台風が起因する停電データを考えると、 Megi(2016)とNesat&Haitang(2017) Typhoonによって引き起こされる停電の数を予測します。
データセット
列車データセットには、各台湾村での8つの歴史的な台風(2014-2016)とその損害(停電)が含まれています。

テストデータセットでMegiとNesat&Haitang Typhoonによって引き起こされる停電を予測することを目指しています(0で初期化)。

タイムライン
始まり:2017年9月20日
閉鎖:2017年11月20日
測定
Morisita-hornの類似性インデックスに基づく精度
方法
データ収集
説明変数が不足しているため、政府のオープンデータから機能を収集する必要がありました。停電の原因は、主にユーティリティポールの落下によるものだと考えました。したがって、台風強度自体だけでなく、この原因に強く関連するデータも収集します。使用したすべてのオープンデータは参照にリストされていますが、以下の重要なデータセットと機能について言及しました。
機能エンジニアリング
- 台風トラック
台風の強度は時間に沿って変化しました。そのため、物理学の洞察から各村に対する台風の影響を説明するための重要な機能を作成しました。メトリックは、「村と台風の間の平方距離によって調整された最大台風強度」によって計算されます。 - 風
強風がユーティリティポールを吹き飛ばす可能性があることを考慮して、私たちは各台風の地域観測場から1時間ごとの風向と速度データを収集しました。 Max、Min、Meanなどを作成しました。属性は、時間から時代までの時代から時代までの時代までの村に対する風の影響を説明します。 - 降雨
大雨がユーティリティポールに損傷を与える可能性があることを考慮して、各台風の地域観測場から蓄積された降雨データを1時間ごとに収集しました。 Max、Min、Meanなどの配布関連属性だけでなく、センター気象局の降雨基準に基づいて機能を作成し、時間、日、台風期間全体レベルまでの村に対する降雨の影響を説明します。 - ユーティリティポール
ユーティリティポールの数とそのタイプが重要であると考えました。前者は潜在的な停電番号を暗黙的に示し、後者はどのようなユーティリティポールが脆弱であるかを明らかにしました。したがって、ユーティリティポールの合計ポール数と各タイプの数を作成して、ユーティリティポールの影響を説明しました。 - 地理人口統計人口密度と電力使用量の構造は、停電と非常に相関していると考えました。したがって、それらを使用して、ヴィラー間の違いを説明します。
モデリング
村の停電は常に起こったわけではなかったので、この不均衡データの問題に注意深く対処しなければなりませんでした。ランダムフォレストレグレッサーを層別の交差検証法で使用して、各検証セットでデータのバランスを取る(村の停電の割合)を使用し、最適なハイパーパラメーターを決定しました。
結果
私たちはチームです。そして、リーダーボードで6番目の賞を獲得しました

改善
- 特に台湾の村のユーティリティポールの数について、データの代入についてさらに努力する必要があります。少数の村にユーティリティポールデータが不足しているため、人口統計やその他の機能に基づいて価値を引き起こすために、KNNなどの同様のグリッド代入を使用することを検討できます。
- ランダムフォレストとXgboostモデルの間に大きなパフォーマンスの違いが見つかりました。これは、分散バイアスのトレードオフを示しています。 2つの種類のモデルを微調整して、スタッキングモデルをSigleのモデルよりも優れているようにする必要があります。
- 33の地域観測所の降雨と風のデータを使用しました。余分な510の自動観測所を追加すると、モデルの適合性が向上する可能性があります。
- 観測所によって記録された風と降雨のデータにより、私は「最も短いユークリッド距離」に基づいて各村に1つの観測所を割り当てました。それを行い、より良い結果を得るためのより適切な方法があるかもしれないと思います。
参照
- DSPコンペティションWebサイト:https://dc.dsp.im/main/content/typhoon-caused-power outgage-prediction-challenge
- タイプンアラート:http://rdc28.cwb.gov.tw/tdb/ntdb/pagecontrol/ty_warning
- 台風風:http://rdc28.cwb.gov.tw/tdb/ntdb/pagecontrol/windsearch
- 台風降雨:http://rdc28.cwb.gov.tw/tdb/ntdb/pagecontrol/rain
- 台風トラック:http://rdc28.cwb.gov.tw/tdb/ctrl_advanced_search
- ユーティリティポール:https://data.gov.tw/dataset/33305
- 村の人口密度:https://data.gov.tw/dataset/8410
- 家庭、産業などによる電力使用率:https://data.gov.tw/dataset/38959
- 村による電力使用量:https://data.gov.tw/dataset/14135
- 地滑りアラート:https://246.swcb.gov.tw/opendata.aspx
- 照明:https://data.gov.tw/dataset/9712