FakeNewsCorpus下载 - FakeNewsCorpus源代码下载

FakeNewsCorpus

其他源码

1.0.0

下载

假新闻语料库

这是一个开源数据集，该数据集由数百万新闻文章组成，主要是从http://www.opensources.co/的1001个域名策划的列表中刮掉的。由于该列表不包含许多可靠的网站，因此还包括了纽约时报和Webhose英语新闻文章，以更好地平衡课程。语料库主要用于培训以虚假新闻识别的目的培训深度学习算法。该数据集仍在进行中，目前，公共版本仅包含9,408,908篇文章（1001个域中的745篇）。

下载

https://github.com/several27/fakenewscorpus/releases/tag/v1.0

语料库是如何创建的？

该语料库是通过刮擦（使用零食）http://www.opensources.co/提供的所有域而创建的。然后处理所有纯HTML内容，以使用报纸库提取一些其他字段（下面列出）。每篇文章都被归因于与其域关联的标签相同的标签。所有源代码都可以在Fakenewsragnition中获得，并且将在接下来的几个月中更加“可用”。

格式化

语料库的格式为CSV，并包含以下字段：

ID
领域
类型
URL
内容
scraped_at
inserted_at
UPDATED_AT
标题
作者
关键字
meta_keywords
meta_description
标签
概括
来源（开源，纽约时报或Webhose）

可用类型的更多信息http://www.opensources.co

类型	标签	计数（到目前为止）	描述
假新闻	伪造的	928,083	完全构建信息，传播欺骗性内容或严重扭曲实际新闻报告的资源
讽刺	讽刺	146,080	使用幽默，讽刺，夸张，嘲笑和虚假信息来评论时事的消息来源。
极端偏见	偏见	1,300,444	来自特定观点的资料来源可能依靠宣传，脱皮的信息以及被视为事实扭曲的观点。
阴谋论	阴谋	905,981	是库克阴谋论的著名促进者的来源。
国家新闻	状态	0	在政府制裁下运作的压制性国家的来源。
垃圾科学	Junksci	144,939	促进伪科学，形而上学，自然主义谬论和其他科学可疑主张的资料。
讨厌新闻	恨	117,374	积极促进种族主义，厌女症，同性恋恐惧症和其他形式歧视的资料。
点击诱饵	点击诱饵	292,201	提供通常可信的内容但使用夸张，误导或可疑的头条新闻，社交媒体描述和/或图像的来源。
谨慎行事	不可靠	319,830	可能可靠但内容的资源需要进一步验证。
政治的	政治的	2,435,471	提供通常可验证的信息以支持某些观点或政治取向的资源。
可信	可靠的	1,920,139	以与新闻业的传统和道德实践相一致的方式传播新闻和信息的资料（请记住：即使是可信的来源有时依靠点击诱饵式的头条新闻或偶尔会犯错。

您可以在websites.csv中找到域的完整列表。CSV。

限制

数据集没有手动过滤，因此某些标签可能不正确，某些URL可能没有指向实际文章，而是网站上的其他页面。但是，由于该语料库旨在用于训练机器学习算法，因此这些问题不应构成实际问题。

此外，当数据集将被确定时（目前仅清洁和发布80％）时，我不打算更新它，因此，除了基于内容的算法以外，它可能很快出于其他目的而过时。但是，欢迎任何贡献！

贡献

因为目前只有我自己从事这个语料库，所以我真的很感谢所有的贡献。如果您发现与任何文章相关的错误标签，怪异的格式化内容或没有指向任何文章的URL，请随时发布有关问题和精确文章ID的问题，我将尽我所能及时响应。由于语料库的大小，所以我无法在Github上托管它，因此，不幸的是，目前，拉力请求无法与数据进行协作，但是我对任何想法都开放？