这是一个开源数据集,该数据集由数百万新闻文章组成,主要是从http://www.opensources.co/的1001个域名策划的列表中刮掉的。由于该列表不包含许多可靠的网站,因此还包括了纽约时报和Webhose英语新闻文章,以更好地平衡课程。语料库主要用于培训以虚假新闻识别的目的培训深度学习算法。该数据集仍在进行中,目前,公共版本仅包含9,408,908篇文章(1001个域中的745篇)。
https://github.com/several27/fakenewscorpus/releases/tag/v1.0
该语料库是通过刮擦(使用零食)http://www.opensources.co/提供的所有域而创建的。然后处理所有纯HTML内容,以使用报纸库提取一些其他字段(下面列出)。每篇文章都被归因于与其域关联的标签相同的标签。所有源代码都可以在Fakenewsragnition中获得,并且将在接下来的几个月中更加“可用”。
语料库的格式为CSV,并包含以下字段:
可用类型的更多信息http://www.opensources.co
| 类型 | 标签 | 计数(到目前为止) | 描述 |
|---|---|---|---|
| 假新闻 | 伪造的 | 928,083 | 完全构建信息,传播欺骗性内容或严重扭曲实际新闻报告的资源 |
| 讽刺 | 讽刺 | 146,080 | 使用幽默,讽刺,夸张,嘲笑和虚假信息来评论时事的消息来源。 |
| 极端偏见 | 偏见 | 1,300,444 | 来自特定观点的资料来源可能依靠宣传,脱皮的信息以及被视为事实扭曲的观点。 |
| 阴谋论 | 阴谋 | 905,981 | 是库克阴谋论的著名促进者的来源。 |
| 国家新闻 | 状态 | 0 | 在政府制裁下运作的压制性国家的来源。 |
| 垃圾科学 | Junksci | 144,939 | 促进伪科学,形而上学,自然主义谬论和其他科学可疑主张的资料。 |
| 讨厌新闻 | 恨 | 117,374 | 积极促进种族主义,厌女症,同性恋恐惧症和其他形式歧视的资料。 |
| 点击诱饵 | 点击诱饵 | 292,201 | 提供通常可信的内容但使用夸张,误导或可疑的头条新闻,社交媒体描述和/或图像的来源。 |
| 谨慎行事 | 不可靠 | 319,830 | 可能可靠但内容的资源需要进一步验证。 |
| 政治的 | 政治的 | 2,435,471 | 提供通常可验证的信息以支持某些观点或政治取向的资源。 |
| 可信 | 可靠的 | 1,920,139 | 以与新闻业的传统和道德实践相一致的方式传播新闻和信息的资料(请记住:即使是可信的来源有时依靠点击诱饵式的头条新闻或偶尔会犯错。 |
您可以在websites.csv中找到域的完整列表。CSV。
数据集没有手动过滤,因此某些标签可能不正确,某些URL可能没有指向实际文章,而是网站上的其他页面。但是,由于该语料库旨在用于训练机器学习算法,因此这些问题不应构成实际问题。
此外,当数据集将被确定时(目前仅清洁和发布80%)时,我不打算更新它,因此,除了基于内容的算法以外,它可能很快出于其他目的而过时。但是,欢迎任何贡献!
因为目前只有我自己从事这个语料库,所以我真的很感谢所有的贡献。如果您发现与任何文章相关的错误标签,怪异的格式化内容或没有指向任何文章的URL,请随时发布有关问题和精确文章ID的问题,我将尽我所能及时响应。由于语料库的大小,所以我无法在Github上托管它,因此,不幸的是,目前,拉力请求无法与数据进行协作,但是我对任何想法都开放?