นี่คือชุดข้อมูลโอเพ่นซอร์สที่ประกอบด้วยบทความข่าวนับล้านส่วนใหญ่ถูกคัดลอกมาจากรายการที่จัดทำจาก 1001 โดเมนจาก http://www.opensources.co/ เนื่องจากรายการไม่มีเว็บไซต์ที่เชื่อถือได้มากมายนอกจากนี้ยังมีการรวมบทความบทความข่าวภาษาอังกฤษและเว็บฮอสภาษาอังกฤษไว้เพื่อปรับสมดุลชั้นเรียนให้ดีขึ้น คลังข้อมูลส่วนใหญ่มีไว้สำหรับใช้ในการฝึกอบรมอัลกอริทึมการเรียนรู้อย่างลึกซึ้งเพื่อจุดประสงค์ในการรับรู้ข่าวปลอม ชุดข้อมูลยังคงทำงานอยู่และตอนนี้เวอร์ชันสาธารณะมีบทความเพียง 9,408,908 บทความ (745 จาก 1001 โดเมน)
https://github.com/several27/fakenewscorpus/releases/tag/v1.0
คลังข้อมูลถูกสร้างขึ้นโดยการขูด (โดยใช้การทำลาย) โดเมนทั้งหมดตามที่จัดทำโดย http://www.opensources.co/ จากนั้นเนื้อหา HTML บริสุทธิ์ทั้งหมดได้รับการประมวลผลเพื่อแยกข้อความบทความด้วยฟิลด์เพิ่มเติมบางอย่าง (รายการด้านล่าง) โดยใช้ไลบรารีหนังสือพิมพ์ แต่ละบทความมีการอ้างถึงฉลากเดียวกับฉลากที่เกี่ยวข้องกับโดเมน ซอร์สโค้ดทั้งหมดมีอยู่ที่ Fakenewsrecognition และจะทำให้“ ใช้งานได้” มากขึ้นในอีกไม่กี่เดือนข้างหน้า
คลังข้อมูลถูกจัดรูปแบบเป็น CSV และมีฟิลด์ต่อไปนี้:
ประเภทข้อมูล เพิ่มเติมข้อมูลเพิ่มเติมเกี่ยวกับ http://www.opensources.co
| พิมพ์ | ติดแท็ก | นับ (จนถึงตอนนี้) | คำอธิบาย |
|---|---|---|---|
| ข่าวปลอม | ปลอม | 928,083 | แหล่งข้อมูลที่ประดิษฐ์ข้อมูลทั้งหมดเผยแพร่เนื้อหาการหลอกลวงหรือบิดเบือนรายงานข่าวจริง |
| การเสียดสี | การเสียดสี | 146,080 | แหล่งข้อมูลที่ใช้อารมณ์ขัน, ประชด, การพูดเกินจริง, การเยาะเย้ยและข้อมูลเท็จเพื่อแสดงความคิดเห็นเกี่ยวกับเหตุการณ์ปัจจุบัน |
| อคติที่รุนแรง | อคติ | 1,300,444 | แหล่งที่มาจากมุมมองเฉพาะและอาจพึ่งพาการโฆษณาชวนเชื่อข้อมูล decontextualized และความคิดเห็นที่บิดเบือนเป็นข้อเท็จจริง |
| ทฤษฎีสมรู้ร่วมคิด | การสมรู้ร่วมคิด | 905,981 | แหล่งข้อมูลที่เป็นผู้สนับสนุนที่รู้จักกันดีของทฤษฎีสมคบคิด Kooky |
| ข่าวของรัฐ | สถานะ | 0 | แหล่งที่มาในรัฐที่กดขี่ดำเนินการภายใต้การลงโทษของรัฐบาล |
| วิทยาศาสตร์ขยะ | Junksci | 144,939 | แหล่งข้อมูลที่ส่งเสริมการปลอมแปลง, อภิปรัชญา, ความผิดพลาดตามธรรมชาติและการเรียกร้องที่น่าสงสัยทางวิทยาศาสตร์อื่น ๆ |
| ความเกลียดชังข่าว | เกลียด | 117,374 | แหล่งข้อมูลที่ส่งเสริมการเหยียดเชื้อชาติความเกลียดชังผู้หญิงหวั่นเกรงและการเลือกปฏิบัติในรูปแบบอื่น ๆ |
| clickbait | clickbait | 292,201 | แหล่งข้อมูลที่ให้เนื้อหาที่น่าเชื่อถือโดยทั่วไป แต่ใช้พาดหัวที่พูดเกินจริงทำให้เข้าใจผิดหรือน่าสงสัยคำอธิบายสื่อสังคมออนไลน์และ/หรือรูปภาพ |
| ดำเนินการด้วยความระมัดระวัง | ไม่น่าเชื่อถือ | 319,830 | แหล่งข้อมูลที่อาจเชื่อถือได้ แต่มีเนื้อหาที่ต้องการการตรวจสอบเพิ่มเติม |
| ทางการเมือง | ทางการเมือง | 2,435,471 | แหล่งข้อมูลที่ให้ข้อมูลที่ตรวจสอบได้โดยทั่วไปเพื่อสนับสนุนมุมมองบางอย่างหรือทิศทางการเมือง |
| น่าเชื่อถือ | เชื่อถือได้ | 1,920,139 | แหล่งข่าวที่หมุนเวียนข่าวและข้อมูลในลักษณะที่สอดคล้องกับการปฏิบัติแบบดั้งเดิมและจริยธรรมในการสื่อสารมวลชน (โปรดจำไว้ว่า: แม้แต่แหล่งข้อมูลที่น่าเชื่อถือบางครั้งก็พึ่งพาพาดหัวข่าวสไตล์ Clickbait หรือทำผิดพลาดเป็นครั้งคราว |
รายการโดเมน คุณสามารถค้นหารายการเต็มของโดเมนใน websites.csv csv
ชุดข้อมูลไม่ได้ถูกกรองด้วยตนเองดังนั้นป้ายกำกับบางส่วนอาจไม่ถูกต้องและ URL บางส่วนอาจไม่ชี้ไปที่บทความจริง แต่หน้าอื่น ๆ บนเว็บไซต์ อย่างไรก็ตามเนื่องจากคลังข้อมูลมีไว้สำหรับใช้ในอัลกอริทึมการเรียนรู้ของเครื่องฝึกอบรมปัญหาเหล่านั้นไม่ควรก่อให้เกิดปัญหาในทางปฏิบัติ
นอกจากนี้เมื่อชุดข้อมูลจะเสร็จสิ้น (สำหรับตอนนี้มีเพียงประมาณ 80% เท่านั้นที่ได้รับการทำความสะอาดและเผยแพร่) ฉันไม่ได้ตั้งใจที่จะอัปเดตดังนั้นมันอาจจะล้าสมัยอย่างรวดเร็วสำหรับวัตถุประสงค์อื่นนอกเหนือจากอัลกอริทึมตามเนื้อหา อย่างไรก็ตามยินดีต้อนรับการมีส่วนร่วมใด ๆ !
เนื่องจากปัจจุบันมีเพียงตัวเองที่ทำงานในคลังข้อมูลนี้ฉันจึงขอขอบคุณการมีส่วนร่วมทั้งหมด หากคุณพบป้ายกำกับที่ไม่ถูกต้องที่เกี่ยวข้องกับบทความใด ๆ เนื้อหาที่จัดรูปแบบแปลก ๆ หรือ URL ที่ไม่ได้ชี้ไปที่บทความใด ๆ อย่าลังเลที่จะโพสต์ปัญหาเกี่ยวกับปัญหาและรหัสบทความที่แน่นอนและฉันจะพยายามอย่างเต็มที่เพื่อตอบสนองทันที เนื่องจากขนาดของคลังข้อมูลฉันจึงไม่สามารถโฮสต์บน GitHub ได้ดังนั้นน่าเสียดายที่ตอนนี้คำขอดึงไม่สามารถใช้เพื่อทำงานร่วมกันกับข้อมูลได้อย่างไรก็ตามฉันเปิดรับแนวคิดใด ๆ ?