Este es un conjunto de datos de código abierto compuesto por millones de artículos de noticias raspados en su mayoría de una lista curada de 1001 dominios de http://www.opensources.co/. Debido a que la lista no contiene muchos sitios web confiables, además se han incluido artículos de artículos de noticias en inglés y webhose se han incluido para equilibrar mejor las clases. Corpus está destinado principalmente a su uso en la capacitación de algoritmos de aprendizaje profundo para fines de reconocimiento de noticias falsas. El conjunto de datos sigue funcionando en progreso y por ahora, la versión pública incluye solo 9,408,908 artículos (745 de los 1001 dominios).
https://github.com/several27/fakenewscorpus/releases/tag/v1.0
El corpus se creó raspando (usando Scrapy) todos los dominios según lo dispuesto por http://www.opensources.co/. Luego, se procesó todo el contenido de HTML puro para extraer el texto del artículo con algunos campos adicionales (enumerados a continuación) utilizando la biblioteca de periódicos. Cada artículo ha sido atribuido la misma etiqueta que la etiqueta asociada con su dominio. Todo el código fuente está disponible en FakenewsRecognition y se hará más "utilizable" en los próximos meses.
El corpus está formateado como un CSV y contiene los siguientes campos:
Tipos disponibles Más información en http://www.opensources.co
| Tipo | Etiqueta | Contar (hasta ahora) | Descripción |
|---|---|---|---|
| Noticias falsas | falso | 928,083 | Fuentes que fabrican información por completo, difunden contenido engañoso o distorsionan muy informes de noticias reales |
| Sátira | sátira | 146,080 | Fuentes que usan humor, ironía, exageración, ridículo e información falsa para comentar sobre los eventos actuales. |
| Sesgo extremo | inclinación | 1.300,444 | Fuentes que provienen de un punto de vista particular y pueden confiar en propaganda, información descontextualizada y opiniones distorsionadas como hechos. |
| Teoría de la conspiración | conspiración | 905,981 | Fuentes que son promotores bien conocidos de teorías de conspiración de Kooky. |
| Noticias estatales | estado | 0 | Fuentes en estados represivos que operan bajo sanción del gobierno. |
| Ciencia basura | chantaje | 144,939 | Fuentes que promueven pseudociencia, metafísica, falacias naturalistas y otras afirmaciones científicamente dudosas. |
| Noticias de odio | odiar | 117,374 | Fuentes que promueven activamente el racismo, la misoginia, la homofobia y otras formas de discriminación. |
| Clickbait | clickbait | 292,201 | Fuentes que proporcionan contenido generalmente creíble, pero usan titulares exagerados, engañosos o cuestionables, descripciones de redes sociales y/o imágenes. |
| Proceder con precaución | faltón | 319,830 | Fuentes que pueden ser confiables pero cuyo contenido requiere una verificación adicional. |
| Político | político | 2.435.471 | Fuentes que proporcionan información generalmente verificable en apoyo de ciertos puntos de vista o orientaciones políticas. |
| Creíble | confiable | 1.920,139 | Fuentes que circulan noticias e información de manera consistente con las prácticas tradicionales y éticas en el periodismo (recuerde: incluso las fuentes creíbles a veces dependen de los titulares de estilo clickbait u ocasionalmente cometen errores. Ninguna organización de noticias es perfecta, por lo que una dieta de noticias saludable consiste en múltiples fuentes de información). |
Lista de dominios Puede encontrar la lista completa de dominios en websites.csv .
El conjunto de datos no se filtró manualmente, por lo tanto, algunas de las etiquetas podrían no ser correctas y algunas de las URL podrían no apuntar a los artículos reales, sino otras páginas en el sitio web. Sin embargo, debido a que el corpus está destinado a su uso en los algoritmos de aprendizaje automático de capacitación, esos problemas no deberían plantear un problema práctico.
Además, cuando se finalizará el conjunto de datos (ya que por ahora solo se limpiaron y publicará alrededor del 80%), no tengo la intención de actualizarlo, por lo tanto, podría quedarse desactualizado rápidamente para otros fines que los algoritmos basados en contenido. Sin embargo, ¡cualquier contribución es bienvenida!
Debido a que actualmente solo hay yo trabajando en este corpus, realmente apreciaría todas las contribuciones. Si ha encontrado etiquetas incorrectas asociadas con algún artículo, contenido o URL de forma extraña que no apunta a ningún artículo, no dude en publicar un problema con el problema y la identificación exacta del artículo y haré todo lo posible para responder rápidamente. Debido al tamaño del corpus, no podría alojarlo en Github, por lo tanto, desafortunadamente, por ahora, las solicitudes de extracción no pueden usarse para trabajar en colaboración en los datos, sin embargo, estoy abierta a cualquier idea.