Competição de Predição de saída de energia
A competição foi realizada pela DSP e Taipower em Taiwan. Eu me juntei a Lawrencesiao . Ele é meu melhor companheiro de equipe e mentor em ciência de dados. Ele me ajudou a fazer engenharia e um modelo preditivo de ajuste para alcançar a classificação superior. Se você tem algum interesse, pode ver o github dele aqui (https://github.com/lawrencesiao)
Declaração de problemas
Por um longo tempo, Taiwan geralmente sofre de tufões que causam muitas quedas de energia. Por exemplo, Soudelor (2015/08) , o tufão mais prejudicial, traz cerca de 4500 milhares de quedas de energia em Taiwan. À luz disso, a construção de cidades resilientes para evitar danos futuros se torna cada vez mais importante. Portanto, a competição esperava que os participantes possam tornar modelos preditivos precisos e aplicáveis para ajudar Taiwan a ficar bem preparado com antecedência.
Dados os dados de queda de energia causados pelo tufão de 2014 a 2016, prevê o número de quedas de energia causadas por Megi (2016) e Nesat & Haitang (2017) Typhoon.
Conjunto de dados
O conjunto de dados de trem inclui 8 tufões históricos (2014-2016) e seus danos (quedas de energia) em cada vila de Taiwan.

Nosso objetivo é prever as quedas de energia causadas por Megi e Nesat & Haitang Typhoon no conjunto de dados de teste (inicializado com 0).

Linha do tempo
Começa em: 20 de setembro de 2017
Fechado em: 20 de novembro de 2017
Medir
Precisão baseada no índice de similaridade de Morisita-Horn
Método
Coleta de dados
Devido à falta de variáveis explicativas, tivemos que coletar recursos de dados abertos do governo. Achamos que as causas das quedas de energia são principalmente da queda dos postes de utilidade. Portanto, não apenas a intensidade do tufão, também coletamos dados que se relacionam fortemente a essa causa. Todos os dados abertos que usamos estão listados em referência, mas acabamos de mencionar os principais conjuntos de dados e recursos abaixo.
Engenharia de recursos
- Trilha do Typhoon
A intensidade do tufão mudou ao longo do tempo. Então, criamos uma característica importante para explicar a influência do tufão em cada vila do insight de física. A métrica é calculada pela "intensidade máxima do tufão ajustada pela distância quadrada entre a aldeia e o tufão". - Vento
Considerando que o vento forte poderia soprar os postes, coletamos a direção horária do vento e a velocidade dos dados das estações de observação regionais para cada tufões. Criamos Max, Min, Mean, etc. Atributos para explicar a influência do vento nas aldeias desde a hora, dia para todo o nível do período do tufão. - Chuva
Considerando que a forte chuva pode danificar os postes da concessionária, coletamos dados de chuva acumulados por hora das estações de observação regionais para cada tufões. Não apenas Max, Min, Mean, etc. Atributos relacionados à distribuição, também criamos recursos baseados no padrão de precipitação do Bureau de Clima central para explicar a influência das chuvas nas aldeias desde o nível do período de hora, dia a todo o tufão. - Polo de utilidade
Consideramos o número de postes de utilidade e seus tipos são importantes. O primeiro indicou implicitamente o número potencial de queda de energia e o último revelou que tipos de pólo de utilidade são vulneráveis. Portanto, criamos números totais de pólo de utilidade e os números de cada tipo para explicar a influência dos pólos de utilidade. - GEO-DEMOGRÁFICO, achamos que a densidade populacional e a estrutura do uso de energia estão altamente correlacionadas com as quedas de energia. Então, nós os usamos para explicar a diferença entre as alças.
Modelagem
As quedas de energia não aconteceram o tempo todo nas aldeias, então tivemos que lidar com esse problema de dados de desequilíbrio com cuidado. Utilizamos o regressor da floresta aleatória com o método de validação cruzada estratificada para equilibrar os dados (a porcentagem de aldeias que sofrem quedas de energia) em cada conjunto de validação e determinar os melhores hiper-parâmetros.
Resultado
Somos equipe下次再加油e recebemos o sexto prêmio em tabela de classificação

Melhoria
- Devemos fazer mais esforço na imputação dos dados , especialmente para o número de postes de utilidade nas aldeias de Taiwan. Devido à falta de dados de pólo de utilidade em poucas aldeias, podemos considerar o uso de imputação de grade semelhante, como o KNN, para imputar valor com base em recursos demográficos ou outros.
- Encontramos uma grande diferença de desempenho entre a floresta aleatória e o modelo XGBOOST, que indicou trade-off de viés de variação . Devemos ajustar dois tipos de modelos para fazer com que o modelo de empilhamento supere qualquer sigle.
- Utilizamos dados de precipitação e vento de 33 estações de observação regionais. Talvez adicionar 510 estações de observação automatizadas extras possam melhorar o modelo.
- Devido aos dados de vento e precipitação registrados pelas estações de observação, atribuí uma estação de observação a cada vila com base na 'a menor distância euclidiana' , que eu representei as coordenadas das aldeias por suas coordenadas centrais. Eu acho que pode haver métodos mais apropriados para fazê -lo e obter melhores resultados.
Referência
- Site do concurso DSP: https: //dc.dsp.im/main/content/typhoon-caused-powower-tages-prediction-clallenge
- Alerta de Typhoon: http://rdc28.cwb.gov.tw/tdb/ntdb/pageControl/ty_warning
- Typhoon Wind: http://rdc28.cwb.gov.tw/tdb/ntdb/pageControl/windsearch
- TYPHOON REAVIDADE: http://rdc28.cwb.gov.tw/tdb/ntdb/pageControl/rain
- Trilha do Typhoon: http://rdc28.cwb.gov.tw/tdb/ctrl_advanced_search
- Polo de utilidade: https://data.gov.tw/dataset/33305
- Densidade populacional da aldeia: https://data.gov.tw/dataset/8410
- Porcentagem de uso de energia por família, indústrias, etc.: Https://data.gov.tw/dataset/38959
- Uso de energia por aldeias: https://data.gov.tw/dataset/14135
- Alerta de deslizamento de terra: https://246.swcb.gov.tw/opendata.aspx
- Iluminação: https://data.gov.tw/dataset/9712