Sina Weibo, Crawler Link:
https://github.com/huangzhihao1994/weibospider-keyword
โครงสร้างข้อมูลเนื้อหา Weibo (เอกสาร JSON ส่งออกโดยฐานข้อมูล Mongo)
content_example:
[
{'_id': '1177737142_H4PSVeZWD', 'keyword': 'A股', 'crawl_time': '2019-06-01 20:31:13', 'weibo_url': 'https://weibo.com/1177737142/H4PSVeZWD', 'user_id': '1177737142', 'created_at': '2018-11-29 03:02:30', 'tool': 'Android', 'like_num': {'$numberInt': '0'}, 'repost_num': {'$numberInt': '0'}, 'comment_num': {'$numberInt': '0'}, 'image_url': 'http://wx4.sinaimg.cn/wap180/4632d7b6ly1fxod61wktyj20u00m8ahf.jpg', 'content': '#a股观点# 鲍威尔主席或是因为被特朗普总统点名批评后萌生悔改之意,今晚一番讲话被市场解读为美联储或暂停加息步伐。美元指数应声下挫,美股及金属贵金属价格大幅上扬,A50表现也并不逊色太多。对明天A股或有积极影响,反弹或能得以延续。 [组图共2张]'},...
]
โครงสร้างข้อมูลความคิดเห็นของ Weibo (เอกสาร JSON ส่งออกโดยฐานข้อมูล Mongo)
comment_example:
[
{'_id': 'C_4322161898716112', 'crawl_time': '2019-06-01 20:35:36', 'weibo_url': 'https://weibo.com/1896820725/H9inNf22b', 'comment_user_id': '6044625121', 'content': '没问题,', 'like_num': {'$numberInt': '0'}, 'created_at': '2018-12-28 11:19:21'},...
]
prepro.py, pre_graph.py, senti_pre.py
เพื่อตอบสนองความต้องการการวิเคราะห์ที่หลากหลายจำเป็นต้องมีการประมวลผลข้อมูลล่วงหน้า ดูไฟล์ PY ทั้งสามนี้สำหรับประเภทไฟล์ข้อมูลที่จำเป็นและโครงสร้างผลลัพธ์ผลลัพธ์
PS:
เมื่อ prepro.py ทำงานให้แก้ไขรหัสสามรหัสในบรรทัด 123, 143 และ 166 ตามต้องการ
เมื่อ pre_graph.py ทำงานให้แก้ไขสองรหัสที่ 127 และ 140 บรรทัดตามต้องการ
senti_pre.py runtime เพื่อแก้ไขรหัสบรรทัด 119 ตามต้องการ
zh_wiki.py, langconv.py
ไฟล์ py สองไฟล์นี้ใช้สำหรับภาษาจีนแบบดั้งเดิมเพื่อทำให้ภาษาจีนง่ายขึ้นโดยไม่ต้องแก้ไข
Word Cloud: wc.py (จำเป็นต้องเสร็จสิ้น prepro.py)
แก้ไขรหัส 3, 19, 26 บรรทัดตามต้องการ
แผนที่ความนิยม: map.py (จำเป็นต้องทำ prepro.py ให้เสร็จสมบูรณ์)
แก้ไขรหัสบรรทัด 8 ตามต้องการ
โพสต์ใหม่ความคิดเห็นเช่นอนุกรมเวลา: line.py (จำเป็นต้องเรียกใช้ senti_pre.py และ senti_analy.py)
Weibo ความคิดเห็นความสัมพันธ์ไดอะแกรม: graph.py (จำเป็นต้องเรียกใช้ pre_graph.py)
(อ้างถึง)
การจัดกลุ่มข้อความ: Cluster_tfidf.py และ Cluster_w2v.py (จำเป็นต้องเรียกใช้ prepro.py)
การวิเคราะห์รูปแบบธีม LDA: lda.py (จำเป็นต้องเรียกใช้ senti_pre.py) tree.py (จำเป็นต้องเรียกใช้ senti_analy.py)
การวิเคราะห์ Senti (พจนานุกรม): senti_analy.py (จำเป็นต้องเรียกใช้ senti_pre.py) 3dbar.py (จำเป็นต้องเรียกใช้ senti_analy.py) pie.py (จำเป็นต้องเรียกใช้ senti_analy.py)
การวิเคราะห์ความเชื่อมั่น (W2V+LSTM): SENTI_LSTM.PY ในเอกสารการวิเคราะห์ความเชื่อมั่น (จำเป็นต้องเรียกใช้ senti_pre.py)
แก้ไขรหัส 250 บรรทัดตามสถานการณ์
เอกสารบางฉบับมีขนาดใหญ่เกินไปและวางไว้ในลิงค์ Baidu Netdisk:
ลิงค์: https://pan.baidu.com/s/1l447d3d6osd_yalsf7b_ma รหัสการแยก: og9t
การวิเคราะห์ความคล้ายคลึงกันของข้อความ: คล้าย. py (สำหรับการอ้างอิงเท่านั้น)
มีการอ้างอิงอื่น ๆ : senti_analy_refer.py, sentiment_lstm.py
เกี่ยวกับ senti_keyword_total_id.csv:
ดาวน์โหลด 8. senti_keyword_total_id.csv ใน Baidu Netdisk ต่อไปนี้เป็นคำอธิบาย: ไฟล์นี้เกือบจะเหมือนกับ senti_keyword_total.csv แต่มีคอลัมน์เพิ่มเติมของ weibo_id (รหัสเพื่อสร้าง senti_keyword_total_id.csv ไม่ได้รับที่นี่อีกต่อไป senti_analy.py และเพิ่มคอลัมน์ของ weibo_id) Baidu NetDisk ใน 8 (มี senti_keyword_total_id.csv และ senti_keyword_total.csv รวมถึงความคิดเห็นและเนื้อหาทั้งหมด) เนื่องจาก lines.py และคำอื่น ๆ ต้องใช้คำหลักทั้งหมดคุณต้องใช้ senti_analy.py เพื่อเรียกใช้ความคิดเห็นทั้งหมด json และ content.json โดยตรงเพื่อสร้าง senti_keyword_total.csv (เพียงแค่วางจากดิสก์เครือข่าย senti_keyword_total_id.csv