Este é um conjunto de dados de código aberto composto por milhões de artigos de notícias raspados principalmente de uma lista com curadoria de 1001 domínios de http://www.opensources.co/. Como a lista não contém muitos sites confiáveis, também foram incluídos os artigos de notícias ingleses e artigos de notícias ingleses para equilibrar melhor as classes. O Corpus destina -se principalmente ao uso no treinamento de algoritmos de aprendizado profundo para fins de reconhecimento de notícias falsas. O conjunto de dados ainda está em andamento e, por enquanto, a versão pública inclui apenas 9.408.908 artigos (745 dos 1001 domínios).
https://github.com/several27/fakenewscorpus/releases/tag/v1.0
O corpus foi criado raspando (usando o SCRAPY) Todos os domínios, conforme fornecido por http://www.opensources.co/. Em seguida, todo o conteúdo HTML puro foi processado para extrair o texto do artigo com alguns campos adicionais (listados abaixo) usando a biblioteca de jornais. Cada artigo foi atribuído o mesmo rótulo que o rótulo associado ao seu domínio. Todo o código -fonte está disponível na FakenewsRecognition e será tornado mais "utilizável" nos próximos meses.
O corpus é formatado como um CSV e contém os seguintes campos:
Tipos disponíveis mais informações sobre http://www.opensources.co
| Tipo | Marcação | Contagem (até agora) | Descrição |
|---|---|---|---|
| Notícias falsas | falso | 928.083 | Fontes que fabricam inteiramente informações, disseminam conteúdo enganoso ou distorcem os relatórios reais de notícias reais |
| Sátira | sátira | 146.080 | Fontes que usam humor, ironia, exagero, ridículo e informações falsas para comentar os eventos atuais. |
| Viés extremo | viés | 1.300.444 | Fontes provenientes de um ponto de vista específico e podem confiar na propaganda, informações descontextualizadas e opiniões distorcidas como fatos. |
| Teoria da conspiração | conspiração | 905.981 | Fontes que são promotores bem conhecidos das teorias da conspiração cansada. |
| Notícias do estado | estado | 0 | Fontes em estados repressivos que operam sob sanção do governo. |
| Ciência lixo | Junksci | 144.939 | Fontes que promovem pseudociência, metafísica, falácias naturalistas e outras reivindicações cientificamente duvidosas. |
| Notícias de ódio | odiar | 117.374 | Fontes que promovem ativamente racismo, misoginia, homofobia e outras formas de discriminação. |
| Clickbait | clickbait | 292.201 | Fontes que fornecem conteúdo geralmente credível, mas usam manchetes exageradas, enganosas ou questionáveis, descrições de mídia social e/ou imagens. |
| Prossiga com cautela | não confiável | 319.830 | Fontes que podem ser confiáveis, mas cujo conteúdo exige verificação adicional. |
| Político | político | 2.435.471 | Fontes que fornecem informações geralmente verificáveis em apoio a certos pontos de vista ou orientações políticas. |
| Credível | confiável | 1.920.139 | Fontes que circulam notícias e informações de uma maneira consistente com as práticas tradicionais e éticas no jornalismo (lembre-se: até fontes credíveis às vezes dependem das manchetes no estilo Clickbait ou, ocasionalmente, cometem erros. Nenhuma organização de notícias é perfeita, e é por isso que uma dieta de notícias saudável consiste em múltiplas fontes de informação). |
Lista de domínios Você pode encontrar a lista completa de domínios em websites.csv .
O conjunto de dados não foi filtrado manualmente, portanto, alguns dos rótulos podem não estar corretos e alguns dos URLs podem não apontar para os artigos reais, mas outras páginas no site. No entanto, como o corpus se destina ao uso em algoritmos de aprendizado de máquina de treinamento, esses problemas não devem representar uma questão prática.
Além disso, quando o conjunto de dados será finalizado (como por enquanto, apenas 80% foi limpo e publicado), não pretendo atualizá-lo; portanto, ele pode rapidamente ficar desatualizado para outros fins do que os algoritmos baseados em conteúdo. No entanto, quaisquer contribuições são bem -vindas!
Como atualmente há apenas eu trabalhando neste corpus, eu realmente apreciaria todas as contribuições. Se você encontrou etiquetas erradas associadas a quaisquer artigos, conteúdo ou URLs estranhamente formatados que não estão apontando para nenhum artigo, fique à vontade para publicar um problema com o problema e o ID exato do artigo e farei o possível para responder prontamente. Devido ao tamanho do corpus, não consegui hospedá -lo no Github; portanto, infelizmente, por enquanto, solicitações de puxar não podem ser usadas para trabalhar colaborativamente nos dados, no entanto, estou aberto a alguma idéia?