Téléchargement FakeNewsCorpus - Téléchargement du code source FakeNewsCorpus

FakeNewsCorpus

Autre code source

1.0.0

Télécharger

Fake News Corpus

Il s'agit d'un ensemble de données open source composé de millions d'articles de presse principalement grattés à partir d'une liste organisée de 1001 domaines de http://www.opensources.co/. Étant donné que la liste ne contient pas de nombreux sites Web fiables, les articles de NYTimes et WebHose de nouvelles anglais ont été inclus pour mieux équilibrer les classes. Corpus est principalement destiné à être utilisé dans la formation des algorithmes d'apprentissage en profondeur à des fins de fausse reconnaissance des nouvelles. L'ensemble de données est toujours en cours et pour l'instant, la version publique ne comprend que 9 408 908 articles (745 sur 1001 domaines).

Téléchargement

https://github.com/several27/fakenewscorpus/releases/tag/v1.0

Comment le corpus a-t-il été créé?

Le corpus a été créé en grattant (en utilisant le scrapy) tous les domaines tels que fournis par http://www.opensensources.co/. Ensuite, tout le contenu HTML pur a été traité pour extraire le texte de l'article avec quelques champs supplémentaires (répertoriés ci-dessous) à l'aide de la bibliothèque de journaux. Chaque article a été attribué la même étiquette que l'étiquette associée à son domaine. Tout le code source est disponible chez FakenewsRecognition et sera rendu plus «utilisable» dans les prochains mois.

Formatage

Le corpus est formaté sous forme de CSV et contient les champs suivants:

identifiant
domaine
taper
URL
contenu
gratté_at
inséré_at
Updated_at
titre
auteurs
mots clés
Meta_keywords
méta_description
balises
résumé
Source (OpenSources, NYTimes ou WebHose)

Types disponibles plus d'informations sur http://www.opensources.co

Taper	Étiqueter	Compter (jusqu'à présent)	Description
Fausses nouvelles	faux	928 083	Des sources qui fabriquent entièrement des informations, diffusent du contenu trompeur ou déforment grossièrement les reportages réels
Satire	satire	146 080	Des sources qui utilisent l'humour, l'ironie, l'exagération, le ridicule et les fausses informations pour commenter les événements actuels.
Biais extrême	biais	1 300 444	Des sources qui proviennent d'un point de vue particulier et peuvent s'appuyer sur la propagande, les informations décontextualisées et les opinions déformées comme des faits.
Théorie du complot	conspiration	905 981	Sources qui sont des promoteurs bien connus des théories du complot de Kooky.
Nouvelles de l'État	État	0	Sources dans les États répressifs opérant sous sanction gouvernementale.
Science de la malbouffe	junksci	144 939	Sources qui favorisent la pseudoscience, la métaphysique, les erreurs naturalistes et d'autres affirmations scientifiquement douteuses.
House News	détester	117 374	Sources qui favorisent activement le racisme, la misogynie, l'homophobie et d'autres formes de discrimination.
Appât de clic	appât de clic	292.201	Des sources qui fournissent un contenu généralement crédible, mais utilisent des gros titres exagérés, trompeurs ou discutables, des descriptions des médias sociaux et / ou des images.
Procéder à la prudence	peu fiable	319 830	Des sources qui peuvent être fiables mais dont le contenu nécessite une vérification supplémentaire.
Politique	politique	2 435 471	Sources qui fournissent des informations généralement vérifiables à l'appui de certains points de vue ou des orientations politiques.
Crédible	fiable	1 920 139	Des sources qui font circuler les nouvelles et les informations d'une manière cohérente avec les pratiques traditionnelles et éthiques dans le journalisme (rappelez-vous: même des sources crédibles reposent parfois sur les gros titres de style clics ou ne font parfois des erreurs. Aucune organisation de presse n'est parfaite, c'est pourquoi un régime de nouvelles sain se compose de plusieurs sources d'informations).

Liste des domaines Vous pouvez trouver la liste complète des domaines dans websites.csv .

Limites

L'ensemble de données n'a pas été filtré manuellement, par conséquent, certaines étiquettes pourraient ne pas être correctes et certaines des URL peuvent ne pas indiquer les articles réels mais d'autres pages du site Web. Cependant, comme le corpus est destiné à être utilisé dans la formation des algorithmes d'apprentissage automatique, ces problèmes ne devraient pas poser de problème pratique.

De plus, lorsque l'ensemble de données sera finalisé (comme pour l'instant, seulement environ 80% ont été nettoyés et publiés), je n'ai pas l'intention de le mettre à jour, il pourrait donc rapidement devenir dépassé à d'autres fins que les algorithmes basés sur le contenu. Cependant, toutes les contributions sont les bienvenues!

Contributif

Parce qu'il n'y a actuellement que moi-même sur ce corpus, j'apprécie vraiment toutes les contributions. Si vous avez trouvé de mauvaises étiquettes associées à des articles, du contenu ou des URL formaté étrangement qui ne pointent pas vers des articles, n'hésitez pas à publier un problème avec le problème et l'ID de l'article exact et je ferai de mon mieux pour répondre rapidement. En raison de la taille du corpus, je ne pouvais pas l'héberger sur GitHub, donc, malheureusement, pour l'instant, les demandes de traction ne peuvent pas être utilisées pour travailler en collaboration sur les données, cependant, je suis ouvert à des idées?

Remerciements

http://www.opensources.co/
Développeur NYTimes
Webhose

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-04-16
taille 443.36KB
Provenant de Github

Applications connexes

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout