이것은 http://www.opensources.co/의 1001 도메인 목록에서 주로 긁힌 수백만 개의 뉴스 기사로 구성된 오픈 소스 데이터 세트입니다. 이 목록에는 신뢰할 수있는 웹 사이트가 많이 포함되어 있지 않기 때문에 NYTimes 및 WebHose English News Articles Article이 수업의 균형을 높이기 위해 포함되었습니다. 코퍼스는 주로 가짜 뉴스 인식을 목적으로 딥 러닝 알고리즘을 훈련시키는 데 사용됩니다. 데이터 세트는 여전히 진행 중이며 현재 공개 버전에는 9,408,908 개의 기사 (1001 개 중 745 개) 만 포함됩니다.
https://github.com/several27/fakenewscorpus/releases/tag/v1.0
코퍼스는 http://www.opensources.co/에서 제공하는 모든 도메인을 긁어 내면서 만들어졌습니다. 그런 다음 모든 순수한 HTML 컨텐츠를 처리하여 신문 라이브러리를 사용하여 일부 추가 필드 (아래 나열된)로 기사 텍스트를 추출했습니다. 각 기사는 도메인과 관련된 레이블과 동일한 레이블로 기인합니다. 모든 소스 코드는 FakenewsRecognition에서 사용할 수 있으며 향후 몇 개월 안에 더 "사용 가능"할 것입니다.
코퍼스는 CSV로 형식화되며 다음 필드를 포함합니다.
사용 가능한 유형 http://www.opensources.co에 대한 자세한 정보
| 유형 | 꼬리표 | 카운트 (지금까지) | 설명 |
|---|---|---|---|
| 가짜 뉴스 | 가짜 | 928,083 | 정보를 완전히 제작하거나,기만적인 내용을 전파하거나, 실제 뉴스 보고서를 심하게 왜곡하는 출처 |
| 풍자 | 풍자 | 146,080 | 유머, 아이러니, 과장, 조롱 및 허위 정보를 사용하는 출처를 사용하여 현재 사건에 대해 의견을 제시합니다. |
| 극단적 인 편견 | 편견 | 1,300,444 | 특정 관점에서 나오는 출처는 선전에 의존 할 수 있으며, 낙담 한 정보 및 의견이 사실로 왜곡되었습니다. |
| 음모 이론 | 음모 | 905,981 | Kooky 음모 이론의 유명한 발기인 인 출처. |
| 주 뉴스 | 상태 | 0 | 정부 제재하에 운영되는 억압 국가의 출처. |
| 정크 과학 | 정크 스키 | 144,939 | 유사 과학, 형이상학, 자연주의 오류 및 기타 과학적으로 모호한 주장을 장려하는 출처. |
| 뉴스를 싫어합니다 | 싫어하다 | 117,374 | 인종 차별, 불행, 동성애 공포증 및 기타 형태의 차별을 적극적으로 촉진하는 출처. |
| 클릭 베이트 | 클릭 베이트 | 292,201 | 일반적으로 신뢰할 수있는 콘텐츠를 제공하지만 과장된 콘텐츠, 오도 또는 의심스러운 헤드 라인, 소셜 미디어 설명 및/또는 이미지를 사용하는 출처. |
| 주의를 기울이십시오 | 신뢰할 수 없는 | 319,830 | 신뢰할 수 있지만 내용에 추가 검증이 필요한 소스. |
| 정치적인 | 정치적인 | 2,435,471 | 특정 관점 또는 정치적 지향을 지원하기 위해 일반적으로 검증 가능한 정보를 제공하는 출처. |
| 신뢰할 수 있는 | 믿을 수 있는 | 1,920,139 | 저널리즘의 전통적이고 윤리적 인 관행과 일치하는 방식으로 뉴스와 정보를 순환하는 출처 (기억하십시오. 신뢰할 수있는 출처조차도 때때로 클릭 베이트 스타일의 헤드 라인에 의존하거나 때때로 실수를 저 지르십시오. 뉴스 조직이 완벽하지 않기 때문에 건강한 뉴스 다이어트는 여러 정보 소스로 구성됩니다). |
도메인 목록 websites.csv 에서 도메인의 전체 목록을 찾을 수 있습니다 .CSV.
데이터 세트가 수동으로 필터링되지 않았으므로 일부 레이블이 올바르지 않을 수 있으며 일부 URL은 실제 기사가 아니라 웹 사이트의 다른 페이지를 가리킬 수 있습니다. 그러나 코퍼스는 훈련 기계 학습 알고리즘에 사용하기위한 것이기 때문에 이러한 문제는 실질적인 문제가되지 않아야합니다.
또한 데이터 세트가 완성 될 때 (현재 약 80% 만 정리 및 게시 됨) 업데이트하려고하지 않으므로 컨텐츠 기반 알고리즘 이외의 다른 목적으로 빠르게 구식이 될 수 있습니다. 그러나 모든 기부금을 환영합니다!
현재이 코퍼스에서 일하고있는 나 자신만이 있기 때문에 모든 기여에 감사드립니다. 기사와 관련된 잘못된 레이블, 이상하게 포맷 된 내용 또는 기사를 가리키지 않는 URL을 발견 한 경우 문제 및 정확한 기사 ID에 문제를 자유롭게 게시하면 즉시 응답하기 위해 최선을 다하겠습니다. 코퍼스의 크기로 인해 GitHub에서 호스팅 할 수 없었으므로 불행히도 지금은 풀 요청을 사용하여 데이터를 공동으로 작업 할 수 없지만 아이디어에 열려 있습니까?