これは、http://www.opensources.co/の1001ドメインのキュレーションされたリストから主に削られた数百万のニュース記事で構成されるオープンソースデータセットです。このリストには多くの信頼できるWebサイトが含まれていないため、さらに、クラスのバランスをとるために、NYTIMESおよびWEBHOSE English News Articleの記事が含まれています。コーパスは、主に、偽のニュース認識を目的としたディープラーニングアルゴリズムのトレーニングに使用することを目的としています。データセットはまだ進行中であり、今のところ、パブリックバージョンには9,408,908の記事のみ(1001ドメインのうち745)が含まれています。
https://github.com/several27/fakenewscorpus/releases/tag/v1.0
コーパスは、http://www.opensources.co/で提供されているすべてのドメインを(Scrapyを使用して)削ることによって作成されました。次に、すべての純粋なHTMLコンテンツを処理して、新聞図書館を使用していくつかの追加フィールド(以下にリスト)を使用して記事テキストを抽出しました。各記事は、そのドメインに関連付けられたラベルと同じラベルと考えられています。すべてのソースコードはFakenewsRecognitionで利用可能であり、今後数か月でより「使いやすい」ようになります。
コーパスはCSVとしてフォーマットされており、次のフィールドが含まれています。
利用可能なタイプhttp://www.opensources.coの詳細情報
| タイプ | タグ | カウント(これまでのところ) | 説明 |
|---|---|---|---|
| 偽のニュース | 偽物 | 928,083 | 情報を完全に製造する情報源、欺ceptive的な内容を広める、または実際のニュースレポートをひどく歪めます |
| 風刺 | 風刺 | 146,080 | 現在の出来事についてコメントするために、ユーモア、皮肉、誇張、rid笑、誤った情報を使用する情報源。 |
| 極端なバイアス | バイアス | 1,300,444 | 特定の視点から来て、プロパガンダ、非文脈化された情報、および事実として歪められた意見に依存する可能性のある情報源。 |
| 陰謀論 | 陰謀 | 905,981 | 奇妙な陰謀理論の有名なプロモーターであるソース。 |
| 州のニュース | 州 | 0 | 政府の制裁の下で活動する抑圧的な州の情報源。 |
| ジャンクサイエンス | Junksci | 144,939 | 偽科学、形而上学、自然主義的な誤症、およびその他の科学的に疑わしい主張を促進する情報源。 |
| 嫌いなニュース | 嫌い | 117,374 | 人種差別、女性嫌悪、同性愛嫌悪、およびその他の形態の差別を積極的に促進する情報源。 |
| クリックベイト | クリックベイト | 292,201 | 一般的に信頼できるコンテンツを提供するが、誇張された、誤解を招く、または疑わしい見出し、ソーシャルメディアの説明、および/または画像を使用するソース。 |
| 注意して進めてください | 信頼できない | 319,830 | 信頼できるかもしれないが、その内容がさらに検証する必要があるソース。 |
| 政治的 | 政治的 | 2,435,471 | 特定の視点または政治的指向をサポートする一般に検証可能な情報を提供するソース。 |
| 信頼できる | 信頼性のある | 1,920,139 | ジャーナリズムの伝統的および倫理的慣行と一致する方法でニュースと情報を配布する情報源(覚えておいてください:信頼できる情報源でさえ、ClickBaitスタイルの見出しに依存したり、間違いを犯したりすることがあります。 |
ドメインのリストwebsites.csvでドメインの完全なリストを見つけることができます。csv。
データセットは手動でフィルタリングされていなかったため、一部のラベルは正しくない可能性があり、一部のURLは実際の記事とWebサイト上の他のページを指していない可能性があります。ただし、コーパスは機械学習アルゴリズムのトレーニングに使用することを目的としているため、これらの問題は実際的な問題を引き起こすべきではありません。
さらに、データセットが確定すると(現時点では約80%のみがクリーニングされ、公開されています)、私はそれを更新するつもりはないため、コンテンツベースのアルゴリズム以外の目的ですぐに時代遅れになる可能性があります。ただし、貢献は大歓迎です!
現在、自分自身だけがこのコーパスに取り組んでいるので、すべての貢献に本当に感謝しています。記事に関連付けられている間違ったラベル、奇妙にフォーマットされたコンテンツ、または記事を指し示していないURLが見つかった場合は、問題と正確な記事IDに関する問題を自由に投稿してください。私は迅速に対応するために最善を尽くします。コーパスのサイズがあるため、GitHubでホストすることはできませんでした。したがって、残念ながら、今のところ、プルリクエストを使用してデータに協力して動作することはできませんが、アイデアに対して開かれていますか?