การแข่งขัน
การแข่งขันจัดขึ้นโดย DSP และ Taipower ในไต้หวัน ฉันร่วมมือกับ Lawrencesiao เขาเป็นเพื่อนร่วมทีมที่ดีที่สุดและเป็นที่ปรึกษาด้านวิทยาศาสตร์ข้อมูล เขาช่วยให้ฉันมีคุณสมบัติทางวิศวกรรมและแบบจำลองการทำนายการปรับแต่งเพื่อให้ได้อันดับสูงสุด หากคุณมีความสนใจคุณสามารถเห็น GitHub ของเขาได้ที่นี่ (https://github.com/lawrencesiao)
คำสั่งปัญหา
เป็นเวลานานไต้หวันมักจะทนทุกข์ทรมานจากพายุไต้ฝุ่นซึ่งทำให้เกิดการหยุดทำงานมากมาย ตัวอย่างเช่น Soudelor (2015/08) พายุไต้ฝุ่นที่เป็นอันตรายที่สุดนำมาซึ่งการหยุดทำงานของพลังงาน 4500 พันคน ในไต้หวัน ด้วยเหตุนี้การสร้าง เมืองที่มีความยืดหยุ่น เพื่อป้องกันความเสียหายในอนาคตมีความสำคัญมากขึ้นเรื่อย ๆ ดังนั้นการแข่งขันที่หวังว่าผู้เข้าแข่งขันจะสามารถสร้างแบบจำลองการทำนายที่ถูกต้องและใช้งานได้เพื่อช่วยให้ไต้หวันได้รับการเตรียมพร้อมล่วงหน้า
เมื่อพิจารณาถึงข้อมูลไฟฟ้าดับพายุไต้ฝุ่นตั้งแต่ปี 2557 ถึง 2559 ทำนายจำนวนการหยุดทำงานที่เกิดจาก Megi (2016) และ Nesat & Haitang (2017) ไต้ฝุ่น
ชุดข้อมูล
ชุดข้อมูลรถไฟประกอบด้วยไต้ฝุ่นประวัติศาสตร์ 8 แห่ง (2014-2016) และความเสียหาย (ไฟฟ้าดับ) ในแต่ละหมู่บ้านไต้หวัน

เราตั้งเป้าหมายที่จะทำนายการหยุดทำงานที่เกิดจาก Megi และ Nesat & Haitang Typhoon ในชุดข้อมูลทดสอบ (เริ่มต้นด้วย 0)

เส้นเวลา
เริ่มต้นที่: 20 ก.ย. 2017
ปิดเมื่อวันที่ 20 พ.ย. 2017
วัด
ความแม่นยำตาม ดัชนีความคล้ายคลึงกันของ Morisita-Horn
วิธี
การรวบรวมข้อมูล
เนื่องจากขาดตัวแปรอธิบายเราจึงต้องรวบรวมคุณสมบัติจากข้อมูลแบบเปิดของรัฐบาล เราคิดว่าสาเหตุของการหยุดทำงานส่วนใหญ่มาจากการลดลงของเสายูทิลิตี้ ดังนั้นไม่เพียง แต่ความเข้มของพายุไต้ฝุ่นเท่านั้น แต่เรายังรวบรวมข้อมูลที่เกี่ยวข้องกับสาเหตุนี้อย่างมาก ข้อมูลแบบเปิดทั้งหมดที่เราใช้มีการระบุไว้ในการอ้างอิง แต่เราเพิ่งพูดถึง ชุดข้อมูลและคุณสมบัติ ด้านล่าง
วิศวกรรมคุณลักษณะ
- Typhoon Track
ความเข้มของพายุไต้ฝุ่นเปลี่ยนไปตามกาลเวลาดังนั้นเราจึงสร้างคุณสมบัติที่สำคัญเพื่ออธิบายอิทธิพลของพายุไต้ฝุ่นในแต่ละหมู่บ้านจากข้อมูลเชิงลึกทางฟิสิกส์ ตัวชี้วัดถูกคำนวณโดย "ความเข้มของไต้ฝุ่นสูงสุดที่ปรับตามระยะห่างของสี่เหลี่ยมระหว่างหมู่บ้านและพายุไต้ฝุ่น" - ลม
เมื่อพิจารณาว่าลมแรงสามารถระเบิดเสายูทิลิตี้เราได้รวบรวมทิศทางลมและความเร็วความเร็วจากสถานีสังเกตการณ์ในระดับภูมิภาคสำหรับไต้ฝุ่นแต่ละแห่ง เราสร้าง Max, Min, Mean, ฯลฯ คุณลักษณะเพื่ออธิบายอิทธิพลของลมต่อหมู่บ้านตั้งแต่ชั่วโมงวันจนถึงระดับพายุไต้ฝุ่นทั้งหมด - ฝนตก
เมื่อพิจารณาว่าฝนตกหนักอาจสร้างความเสียหายให้กับเสายูทิลิตี้เราได้รวบรวมข้อมูลปริมาณน้ำฝนที่สะสมรายชั่วโมงจากสถานีสังเกตการณ์ระดับภูมิภาคสำหรับแต่ละไต้ฝุ่น ไม่เพียง แต่แม็กซ์ขั้นต่ำค่าเฉลี่ย ฯลฯ คุณลักษณะที่เกี่ยวข้องกับการกระจายเรายังสร้างคุณสมบัติตามมาตรฐานปริมาณน้ำฝนของสำนักสภาพอากาศศูนย์เพื่ออธิบายอิทธิพลของปริมาณน้ำฝนที่มีต่อหมู่บ้านจากชั่วโมงวันจนถึงระดับพายุไต้ฝุ่นทั้งหมด - เสายูทิลิตี้
เราพิจารณาจำนวนเสายูทิลิตี้และประเภทของพวกเขามีความสำคัญ อดีตระบุจำนวนการหยุดทำงานของพลังงานที่อาจเกิดขึ้นโดยปริยายและหลังเปิดเผยว่าเสายูทิลิตี้ชนิดใดที่มีความเสี่ยง ดังนั้นเราจึงสร้างจำนวนเสายูทิลิตี้ทั้งหมดและจำนวนของแต่ละประเภทเพื่ออธิบายอิทธิพลของเสายูทิลิตี้ - Geo-Demographic เราคิดว่าความหนาแน่นของประชากรและโครงสร้างของการใช้พลังงานมีความสัมพันธ์อย่างมากกับการหยุดทำงานของพลังงาน ดังนั้นเราจึงใช้พวกเขาเพื่ออธิบายความแตกต่างระหว่างสัตว์แพทย์
การสร้างแบบจำลอง
การหยุดทำงานไม่ได้เกิดขึ้นตลอดเวลาในหมู่บ้านดังนั้นเราจึงต้องจัดการกับปัญหาข้อมูลความไม่สมดุลนี้อย่างระมัดระวัง เราใช้ เครื่องถดถอยป่าแบบสุ่ม ด้วยวิธี การตรวจสอบข้ามแบบแบ่งชั้น เพื่อสร้างความสมดุลระหว่างข้อมูล (เปอร์เซ็นต์ของหมู่บ้านที่มีการหยุดทำงานของกำลังไฟฟ้าดับ) ในแต่ละชุดการตรวจสอบความถูกต้องและกำหนดพารามิเตอร์ไฮเปอร์ที่ดีที่สุด
ผลลัพธ์
เราเป็นทีม下次再加油และได้รับรางวัล 6 ในลีดเดอร์บอร์ด

การปรับปรุง
- เราควรใช้ความพยายามมากขึ้นใน การใส่ข้อมูล โดยเฉพาะอย่างยิ่งสำหรับจำนวนเสายูทิลิตี้ในหมู่บ้านไต้หวัน เนื่องจากขาดข้อมูลเสายูทิลิตี้ในหมู่บ้านไม่กี่แห่งเราจึงสามารถพิจารณาใช้การใส่กริดที่คล้ายกันเช่น KNN เพื่อใส่ค่าตามมูลค่าทางประชากรหรือคุณสมบัติอื่น ๆ
- เราพบความแตกต่างของประสิทธิภาพที่มีขนาดใหญ่ระหว่างแบบสุ่มป่าและโมเดล XGBOOST ซึ่งบ่งบอกถึง ความแปรปรวนแบบอคติ เราควรปรับแต่งโมเดลสองแบบเพื่อให้โมเดลการซ้อนดีกว่า Sigle One
- เราใช้ข้อมูลปริมาณน้ำฝนและลมจาก 33 สถานีสังเกตการณ์ระดับภูมิภาค บางทีการเพิ่ม สถานีสังเกตการณ์อัตโนมัติ 510 พิเศษสามารถทำให้แบบจำลองพอดีดีขึ้น
- เนื่องจากข้อมูลลมและปริมาณน้ำฝนที่บันทึกไว้โดยสถานีสังเกตการณ์ฉันได้มอบหมายสถานีสังเกตการณ์หนึ่งแห่งให้กับแต่ละหมู่บ้านตาม 'ระยะทางยุคลิดที่สั้นที่สุด' ซึ่งฉันเป็นตัวแทนของหมู่บ้าน 'พิกัดโดยพิกัดกลางของพวกเขา ฉันคิดว่าอาจมีวิธีการที่เหมาะสมกว่าในการทำและได้ผลลัพธ์ที่ดีกว่า
อ้างอิง
- เว็บไซต์การแข่งขัน DSP: https: //dc.dsp.im/main/content/typhoon-causused-power-outages-prediction-challenge
- Typhoon Alert: http://rdc28.cwb.gov.tw/tdb/ntdb/pagecontrol/ty_warning
- Typhoon Wind: http://rdc28.cwb.gov.tw/tdb/ntdb/pagecontrol/windsearch
- สายฝนพายุไต้ฝุ่น: http://rdc28.cwb.gov.tw/tdb/ntdb/pagecontrol/rain
- Typhoon Track: http://rdc28.cwb.gov.tw/tdb/ctrl_advanced_search
- เสายูทิลิตี้: https://data.gov.tw/dataset/33305
- ความหนาแน่นของประชากรหมู่บ้าน: https://data.gov.tw/dataset/8410
- เปอร์เซ็นต์การใช้พลังงานตามครัวเรือนอุตสาหกรรม ฯลฯ : https://data.gov.tw/dataset/38959
- การใช้พลังงานโดยหมู่บ้าน: https://data.gov.tw/dataset/14135
- Landslide Alert: https://246.swcb.gov.tw/opendata.aspx
- แสง: https://data.gov.tw/dataset/9712