Il s'agit d'un ensemble de données open source composé de millions d'articles de presse principalement grattés à partir d'une liste organisée de 1001 domaines de http://www.opensources.co/. Étant donné que la liste ne contient pas de nombreux sites Web fiables, les articles de NYTimes et WebHose de nouvelles anglais ont été inclus pour mieux équilibrer les classes. Corpus est principalement destiné à être utilisé dans la formation des algorithmes d'apprentissage en profondeur à des fins de fausse reconnaissance des nouvelles. L'ensemble de données est toujours en cours et pour l'instant, la version publique ne comprend que 9 408 908 articles (745 sur 1001 domaines).
https://github.com/several27/fakenewscorpus/releases/tag/v1.0
Le corpus a été créé en grattant (en utilisant le scrapy) tous les domaines tels que fournis par http://www.opensensources.co/. Ensuite, tout le contenu HTML pur a été traité pour extraire le texte de l'article avec quelques champs supplémentaires (répertoriés ci-dessous) à l'aide de la bibliothèque de journaux. Chaque article a été attribué la même étiquette que l'étiquette associée à son domaine. Tout le code source est disponible chez FakenewsRecognition et sera rendu plus «utilisable» dans les prochains mois.
Le corpus est formaté sous forme de CSV et contient les champs suivants:
Types disponibles plus d'informations sur http://www.opensources.co
| Taper | Étiqueter | Compter (jusqu'à présent) | Description |
|---|---|---|---|
| Fausses nouvelles | faux | 928 083 | Des sources qui fabriquent entièrement des informations, diffusent du contenu trompeur ou déforment grossièrement les reportages réels |
| Satire | satire | 146 080 | Des sources qui utilisent l'humour, l'ironie, l'exagération, le ridicule et les fausses informations pour commenter les événements actuels. |
| Biais extrême | biais | 1 300 444 | Des sources qui proviennent d'un point de vue particulier et peuvent s'appuyer sur la propagande, les informations décontextualisées et les opinions déformées comme des faits. |
| Théorie du complot | conspiration | 905 981 | Sources qui sont des promoteurs bien connus des théories du complot de Kooky. |
| Nouvelles de l'État | État | 0 | Sources dans les États répressifs opérant sous sanction gouvernementale. |
| Science de la malbouffe | junksci | 144 939 | Sources qui favorisent la pseudoscience, la métaphysique, les erreurs naturalistes et d'autres affirmations scientifiquement douteuses. |
| House News | détester | 117 374 | Sources qui favorisent activement le racisme, la misogynie, l'homophobie et d'autres formes de discrimination. |
| Appât de clic | appât de clic | 292.201 | Des sources qui fournissent un contenu généralement crédible, mais utilisent des gros titres exagérés, trompeurs ou discutables, des descriptions des médias sociaux et / ou des images. |
| Procéder à la prudence | peu fiable | 319 830 | Des sources qui peuvent être fiables mais dont le contenu nécessite une vérification supplémentaire. |
| Politique | politique | 2 435 471 | Sources qui fournissent des informations généralement vérifiables à l'appui de certains points de vue ou des orientations politiques. |
| Crédible | fiable | 1 920 139 | Des sources qui font circuler les nouvelles et les informations d'une manière cohérente avec les pratiques traditionnelles et éthiques dans le journalisme (rappelez-vous: même des sources crédibles reposent parfois sur les gros titres de style clics ou ne font parfois des erreurs. Aucune organisation de presse n'est parfaite, c'est pourquoi un régime de nouvelles sain se compose de plusieurs sources d'informations). |
Liste des domaines Vous pouvez trouver la liste complète des domaines dans websites.csv .
L'ensemble de données n'a pas été filtré manuellement, par conséquent, certaines étiquettes pourraient ne pas être correctes et certaines des URL peuvent ne pas indiquer les articles réels mais d'autres pages du site Web. Cependant, comme le corpus est destiné à être utilisé dans la formation des algorithmes d'apprentissage automatique, ces problèmes ne devraient pas poser de problème pratique.
De plus, lorsque l'ensemble de données sera finalisé (comme pour l'instant, seulement environ 80% ont été nettoyés et publiés), je n'ai pas l'intention de le mettre à jour, il pourrait donc rapidement devenir dépassé à d'autres fins que les algorithmes basés sur le contenu. Cependant, toutes les contributions sont les bienvenues!
Parce qu'il n'y a actuellement que moi-même sur ce corpus, j'apprécie vraiment toutes les contributions. Si vous avez trouvé de mauvaises étiquettes associées à des articles, du contenu ou des URL formaté étrangement qui ne pointent pas vers des articles, n'hésitez pas à publier un problème avec le problème et l'ID de l'article exact et je ferai de mon mieux pour répondre rapidement. En raison de la taille du corpus, je ne pouvais pas l'héberger sur GitHub, donc, malheureusement, pour l'instant, les demandes de traction ne peuvent pas être utilisées pour travailler en collaboration sur les données, cependant, je suis ouvert à des idées?