طاقة-توزيع المنافسة
عقدت المسابقة من قبل DSP و Taipower في تايوان. تعاونت مع لورنسسيا . إنه أفضل زميلي ومعلمه في علوم البيانات. لقد ساعدني في الحصول على نموذج تنبؤي هندسي وضبطه للوصول إلى المرتبة الأولى. إذا كان لديك أي اهتمام ، يمكنك رؤية github هنا (https://github.com/lawrencesiao)
بيان المشكلة
لفترة طويلة ، غالبًا ما تعاني تايوان من الأعاصير التي تسبب الكثير من انقطاع التيار الكهربائي. على سبيل المثال ، فإن Soudelor (2015/08) ، أعقاب أكثر ضررًا ، يجلب حوالي 4500 انقطاع التيار الكهربائي في تايوان. في ضوء ذلك ، يصبح بناء مدن مرنة لمنع الأضرار المستقبلية أكثر أهمية. لذلك ، يأمل المنافسة في أن يتمكن المتسابقون من جعل نماذج تنبؤية دقيقة وقابلة للتطبيق لمساعدة تايوان على الاستعداد جيدًا.
بالنظر إلى بيانات انقطاع التيفون التي تسببت في انقطاع التيفون من 2014 إلى 2016 ، توقع عدد انقطاع التيار الكهربائي الناجم عن Megi (2016) و Nesat & Haitang (2017) Typhoon.
مجموعة البيانات
تتضمن مجموعة بيانات القطار 8 أعاصير تاريخية (2014-2016) وأضرارها (انقطاع التيار الكهربائي) في كل قرية تايوان.

نهدف إلى التنبؤ بانقطاع التيار الكهربائي الناجم عن Typhoon Megi و Nesat & Haitang في مجموعة بيانات الاختبار (التي تمت تهيئتها باستخدام 0).

الجدول الزمني
يبدأ في: 20 سبتمبر 2017
مغلق في: 20 نوفمبر 2017
يقيس
دقة على مؤشر تشابه موريسيتا هورن
طريقة
جمع البيانات
نظرًا لعدم وجود متغيرات توضيحية ، اضطررنا إلى جمع ميزات من البيانات المفتوحة الحكومية. كنا نظن أن أسباب انقطاع التيار الكهربائي هي أساسا من سقوط أعمدة المرافق. لذلك ، ليس فقط شدة الإعصار نفسها ، نقوم أيضًا بجمع البيانات التي ترتبط بقوة بهذا السبب. يتم سرد جميع البيانات المفتوحة التي استخدمناها في المرجع ، لكننا ذكرنا للتو مجموعات البيانات والميزات الرئيسية أدناه.
ميزة الهندسة
- مسار الإعصار
تغيرت شدة الإعصار على طول الوقت. لذلك أنشأنا ميزة مهمة لشرح تأثير الإعصار على كل قرية من فيزياء البصيرة. يتم حساب المقياس من خلال "الحد الأقصى لشدة الإعصار المعدلة بالمسافة المربعة بين القرية والإعصار". - رياح
بالنظر إلى أن الرياح القوية يمكن أن تنفجر أعمدة المرافق ، قمنا بجمع اتجاه الرياح بالساعة وبيانات السرعة من محطات المراقبة الإقليمية لكل أعاصير. لقد أنشأنا Max ، Min ، يعني ، إلخ. السمات لشرح تأثير الرياح على القرى من ساعة ، اليوم إلى مستوى فترة الإعصار بالكامل. - هطول الأمطار
بالنظر إلى أن الأمطار الغزيرة قد تلحق الضرر بأعمدة المرافق ، قمنا بجمع بيانات هطول الأمطار المتراكمة بالساعة من محطات المراقبة الإقليمية لكل أعاصير. ليس فقط Max ، Min ، Mean ، إلخ. السمات المتعلقة بالتوزيع ، لقد أنشأنا أيضًا ميزات تعتمد على معيار هطول الأمطار في مكتب الطقس في الوسط لشرح تأثير هطول الأمطار على القرى من ساعة إلى مستوى فترة الإعصار الكاملة. - قطب فائدة
نظرنا في أعداد أعمدة المنفعة وأنواعها مهمة. أوضح الأول ضمنيًا رقم انقطاع التيار الكهربائي المحتمل وكشف الأخير عن أنواع عمود المنفعة الضعيفة. لذلك ، أنشأنا أرقام عمود الأداة المساعدة الكلية وأرقام كل أنواع لشرح تأثير أعمدة المنفعة. - جيو ديموغرافينا اعتقدنا أن الكثافة السكانية وهيكل استخدام الطاقة مرتبطان ارتباطًا وثيقًا بانقطاع التيار الكهربائي. لذلك نحن نستخدمها لشرح الفرق بين الضيق.
النمذجة
لم يحدث انقطاع التيار الكهربائي في جميع الأوقات في القرى ، لذلك كان علينا التعامل مع مشكلة بيانات الخلل هذه بعناية. استخدمنا تراجع الغابات العشوائي مع طريقة التحقق المتبادل الطبقي لموازنة البيانات (النسبة المئوية للقرى التي تعاني من انقطاع التيار الكهربائي) في كل مجموعة التحقق من صحة وتحديد أفضل المعلمات المفرطة.
نتيجة
نحن فريق下次再加油وحصلوا على الجائزة السادسة في المتصدرين

تحسين
- يجب علينا بذل المزيد من الجهد على توضيح البيانات ، خاصة بالنسبة لأعداد أعمدة المنفعة في قرى تايوان. بسبب نقص بيانات عمود المنفعة في قرى قليلة ، يمكننا أن نفكر في استخدام شبكة مماثلة مثل KNN لفرض قيمة على أساس الميزات الديموغرافية أو غيرها من الميزات.
- لقد وجدنا فرقًا كبيرًا في الأداء بين نموذج الغابات العشوائية ونموذج XgBoost ، والذي أشار إلى مفاضلة التحيز التباين . يجب أن نتحمل نوعين من النماذج لجعل نموذج التراص يتفوق على أي واحد.
- استخدمنا بيانات هطول الأمطار والرياح من 33 محطة مراقبة إقليمية. ربما يمكن إضافة 510 محطات مراقبة تلقائية إضافية جعل النموذج مناسبًا.
- نظرًا لبيانات هطول الأمطار والأمطار المسجلة بواسطة محطات المراقبة ، قمت بتعيين محطة مراقبة واحدة لكل قرية تعتمد على "أقصر مسافة إقليدية" ، والتي مثلت إحداثيات القرى من قبل إحداثيات المركز. أعتقد أنه قد تكون هناك طرق أكثر ملاءمة للقيام بذلك والحصول على نتائج أفضل.
مرجع
- موقع المنافسة DSP: https: //dc.dsp.im/main/content/typhoon-caused-power-oudpages-prediction-challenge
- تنبيه الإعصار: http://rdc28.cwb.gov.tw/tdb/ntdb/pagecontrol/ty_warning
- Typhoon Wind: http://rdc28.cwb.gov.tw/tdb/ntdb/pagecontrol/windsearch
- هطول الأمطار الإعصار: http://rdc28.cwb.gov.tw/tdb/ntdb/pageControl/Rain
- Typhoon Track: http://rdc28.cwb.gov.tw/tdb/ctrl_advanced_search
- عمود الأداة المساعدة: https://data.gov.tw/dataset/33305
- الكثافة السكانية القرية: https://data.gov.tw/dataset/8410
- نسبة استخدام السلطة من قبل الأسرة والصناعات وما إلى ذلك: https://data.gov.tw/dataset/38959
- استخدام السلطة من القرى: https://data.gov.tw/dataset/14135
- تنبيه الانهيار الأرضي: https://246.swcb.gov.tw/opendata.aspx
- الإضاءة: https://data.gov.tw/dataset/9712