Это набор данных с открытым исходным кодом, состоящий из миллионов новостных статей, в основном скрещенных из кураторского списка из 1001 доменов с http://www.opensources.co/. Поскольку список не содержит много надежных веб -сайтов, дополнительно NYTimes и Web -Hose English News статьи были включены для лучшего сбалансирования классов. Корпус в основном предназначен для использования при обучении алгоритмам глубокого обучения с целью признания фальшивых новостей. Набор данных по -прежнему находится в процессе работы, и на данный момент публичная версия включает в себя только 9 408 908 статей (745 из 1001 доменов).
https://github.com/several27/fakenewscorpus/releases/tag/v1.0
Корпус был создан путем соскоба (используя скрапу) все домены, как это предоставлено http://www.opensources.co/. Затем все чистое содержание HTML было обработано для извлечения текста статьи с помощью некоторых дополнительных полей (перечисленных ниже) с использованием газетной библиотеки. Каждая статья была приписана той же меткой, что и этикетка, связанная с его доменом. Весь исходный код доступен в FakenewsRecognition и будет сделан более «пригодным для использования» в ближайшие несколько месяцев.
Корпус отформатирован как CSV и содержит следующие поля:
Доступные типы Дополнительная информация о http://www.opensources.co
| Тип | Ярлык | Считайте (пока) | Описание |
|---|---|---|---|
| Поддельные новости | фальшивый | 928,083 | Источники, которые полностью изготавливают информацию, распространяют обманчивое содержание или крайне искажают реальные новости |
| Сатира | сатира | 146 080 | Источники, которые используют юмор, иронию, преувеличение, насмешки и ложную информацию, чтобы комментировать текущие события. |
| Крайний предвзятость | предвзятость | 1300 444 | Источники, которые поступают с определенной точки зрения и могут полагаться на пропаганду, деконтекстуализированную информацию и мнения, искаженные как факты. |
| Теория заговора | заговор | 905,981 | Источники, которые являются известными промоутерами теорий странных заговоров. |
| Государственные новости | состояние | 0 | Источники в репрессивных штатах, действующих в соответствии с государственными санкциями. |
| Мусорная наука | Junksci | 144,939 | Источники, которые способствуют лженауке, метафизике, натуралистическим ошибкам и другим научно сомнительным требованиям. |
| Ненависть новости | ненавидеть | 117,374 | Источники, которые активно способствуют расизму, женоненавистничеству, гомофобии и другим формам дискриминации. |
| Clickbait | Clickbait | 292,201 | Источники, которые предоставляют в целом заслуживающий доверия контент, но используют преувеличенные, вводящие в заблуждение или сомнительные заголовки, описания социальных сетей и/или изображения. |
| Продолжить с осторожностью | ненадежный | 319 830 | Источники, которые могут быть надежными, но содержимое которого требуют дальнейшей проверки. |
| Политический | политический | 2435 471 | Источники, которые предоставляют в целом поддающуюся проверке информации в поддержку определенных точек зрения или политической ориентации. |
| Заслуживающий доверия | надежный | 1 920,139 | Источники, которые распространяют новости и информацию в соответствии с традиционными и этическими практиками в журналистике (помните: даже заслуживающие доверия источники иногда зависят от заголовков в стиле Clickbait или иногда делают ошибки. Ни одна новостная организация не является идеальной, поэтому здоровая новостная диета состоит из нескольких источников информации). |
Список доменов Вы можете найти полный список доменов на websites.csv . CSV.
Набор данных не был отфильтрован вручную, поэтому некоторые этикетки могут быть не правильными, и некоторые из URL -адресов могут указывать не на реальные статьи, а на другие страницы на веб -сайте. Однако, поскольку корпус предназначен для использования в алгоритмах обучения машинного обучения, эти проблемы не должны представлять практическую проблему.
Кроме того, когда набор данных будет завершен (на данный момент только около 80% было очищено и опубликовано), я не намерен его обновлять, поэтому он может быстро устареть для других целей, чем алгоритмы на основе контента. Однако любые взносы приветствуются!
Поскольку в настоящее время над этим корпусом работает только я, я бы очень признателен за все вклад. Если вы нашли неверные этикетки, связанные с какими -либо статьями, странно форматированным контентом или URL -адресами, которые не указывают на какие -либо статьи, не стесняйтесь размещать проблему с проблемой и точным идентификатором статьи, и я сделаю все возможное, чтобы реагировать быстро. Из -за размера корпуса я не мог разместить его на GitHub, поэтому, к сожалению, пока запросы на развлечение не могут быть использованы для совместной работы над данными, однако я открыт для любых идей?