
Au cours des dernières années, la croissance des médias sociaux en ligne a grandement facilité la façon dont les gens communiquent entre eux. La contre-mesure de base de la comparaison des sites Web avec une liste de fausses sources étiquetées est inflexible, et donc une approche d'apprentissage automatique est souhaitable. Notre projet vise à utiliser le traitement du langage naturel pour détecter directement les fausses nouvelles, en fonction du contenu texte des articles de presse.
Développer un programme d'apprentissage automatique pour identifier quand un article peut être de fausses nouvelles. Nous visons à utiliser un corpus d'articles de presse réels et faux étiquetés pour construire un classificateur qui peut prendre des décisions concernant les informations basées sur le contenu du corpus. Le modèle se concentrera sur l'identification de fausses nouvelles.
Train.csv: Un ensemble de données de formation complet avec les attributs suivants: ID: ID unique pour un article Titre: Le titre d'un article de presse Auteur: Auteur de l'article de presse texte: Le texte de l'article; pourrait être une étiquette incomplète: une étiquette qui marque l'article comme potentiellement peu fiable 1: peu fiable 0: fiable
test.csv: un ensemble de données de formation de test avec tous les mêmes attributs sur train.csv sans l'étiquette.
Clone the repo to your local machine-
> git clone https://github.com/sanikamal/fake-news-detector.git
> cd fake-news-detector
Make sure you have all the dependencies installed-
python 3.6+
numpy
pandas
matplotlib
sklearn
nltk
| Modèle | Précision |
|---|---|
| Régression logistique | 72,94% |
| Multinomialnb | 88,42% |
