這是一個開源數據集,該數據集由數百萬新聞文章組成,主要是從http://www.opensources.co/的1001個域名策劃的列表中刮掉的。由於該列表不包含許多可靠的網站,因此還包括了紐約時報和Webhose英語新聞文章,以更好地平衡課程。語料庫主要用於培訓以虛假新聞識別的目的培訓深度學習算法。該數據集仍在進行中,目前,公共版本僅包含9,408,908篇文章(1001個域中的745篇)。
https://github.com/several27/fakenewscorpus/releases/tag/v1.0
該語料庫是通過刮擦(使用零食)http://www.opensources.co/提供的所有域而創建的。然後處理所有純HTML內容,以使用報紙庫提取一些其他字段(下面列出)。每篇文章都被歸因於與其域關聯的標籤相同的標籤。所有源代碼都可以在Fakenewsragnition中獲得,並且將在接下來的幾個月中更加“可用”。
語料庫的格式為CSV,並包含以下字段:
可用類型的更多信息http://www.opensources.co
| 類型 | 標籤 | 計數(到目前為止) | 描述 |
|---|---|---|---|
| 假新聞 | 偽造的 | 928,083 | 完全構建信息,傳播欺騙性內容或嚴重扭曲實際新聞報告的資源 |
| 諷刺 | 諷刺 | 146,080 | 使用幽默,諷刺,誇張,嘲笑和虛假信息來評論時事的消息來源。 |
| 極端偏見 | 偏見 | 1,300,444 | 來自特定觀點的資料來源可能依靠宣傳,脫皮的信息以及被視為事實扭曲的觀點。 |
| 陰謀論 | 陰謀 | 905,981 | 是庫克陰謀論的著名促進者的來源。 |
| 國家新聞 | 狀態 | 0 | 在政府制裁下運作的壓制性國家的來源。 |
| 垃圾科學 | Junksci | 144,939 | 促進偽科學,形而上學,自然主義謬論和其他科學可疑主張的資料。 |
| 討厭新聞 | 恨 | 117,374 | 積極促進種族主義,厭女症,同性戀恐懼症和其他形式歧視的資料。 |
| 點擊誘餌 | 點擊誘餌 | 292,201 | 提供通常可信的內容但使用誇張,誤導或可疑的頭條新聞,社交媒體描述和/或圖像的來源。 |
| 謹慎行事 | 不可靠 | 319,830 | 可能可靠但內容的資源需要進一步驗證。 |
| 政治的 | 政治的 | 2,435,471 | 提供通常可驗證的信息以支持某些觀點或政治取向的資源。 |
| 可信 | 可靠的 | 1,920,139 | 以與新聞業的傳統和道德實踐相一致的方式傳播新聞和信息的資料(請記住:即使是可信的來源有時依靠點擊餌式的頭條新聞或偶爾會犯錯。 |
您可以在websites.csv中找到域的完整列表。 CSV。
數據集沒有手動過濾,因此某些標籤可能不正確,某些URL可能沒有指向實際文章,而是網站上的其他頁面。但是,由於該語料庫旨在用於訓練機器學習算法,因此這些問題不應構成實際問題。
此外,當數據集將被確定時(目前僅清潔和發布80%)時,我不打算更新它,因此,除了基於內容的算法以外,它可能很快出於其他目的而過時。但是,歡迎任何貢獻!
因為目前只有我自己從事這個語料庫,所以我真的很感謝所有的貢獻。如果您發現與任何文章相關的錯誤標籤,怪異的格式化內容或沒有指向任何文章的URL,請隨時發布有關問題和精確文章ID的問題,我將盡我所能及時響應。由於語料庫的大小,所以我無法在Github上託管它,因此,不幸的是,目前,拉力請求無法與數據進行協作,但是我對任何想法都開放嗎?