سينا ويبو ، رابط الزاحف:
https://github.com/huangzhihao1994/weibospider-keyword
هيكل بيانات محتوى Weibo (مستند JSON الذي تم تصديره بواسطة قاعدة بيانات Mongo)
content_example:
[
{'_id': '1177737142_H4PSVeZWD', 'keyword': 'A股', 'crawl_time': '2019-06-01 20:31:13', 'weibo_url': 'https://weibo.com/1177737142/H4PSVeZWD', 'user_id': '1177737142', 'created_at': '2018-11-29 03:02:30', 'tool': 'Android', 'like_num': {'$numberInt': '0'}, 'repost_num': {'$numberInt': '0'}, 'comment_num': {'$numberInt': '0'}, 'image_url': 'http://wx4.sinaimg.cn/wap180/4632d7b6ly1fxod61wktyj20u00m8ahf.jpg', 'content': '#a股观点# 鲍威尔主席或是因为被特朗普总统点名批评后萌生悔改之意,今晚一番讲话被市场解读为美联储或暂停加息步伐。美元指数应声下挫,美股及金属贵金属价格大幅上扬,A50表现也并不逊色太多。对明天A股或有积极影响,反弹或能得以延续。 [组图共2张]'},...
]
بنية بيانات تعليق Weibo (وثيقة JSON التي تم تصديرها بواسطة قاعدة بيانات Mongo)
comment_example:
[
{'_id': 'C_4322161898716112', 'crawl_time': '2019-06-01 20:35:36', 'weibo_url': 'https://weibo.com/1896820725/H9inNf22b', 'comment_user_id': '6044625121', 'content': '没问题,', 'like_num': {'$numberInt': '0'}, 'created_at': '2018-12-28 11:19:21'},...
]
prepro.py ، pre_graph.py ، senti_pre.py
من أجل تلبية احتياجات التحليل المختلفة ، مطلوب معالجة البيانات. راجع هذه الملفات الثلاثة PY للحصول على نوع بيانات ملف البيانات المطلوب المحدد وهيكل بيانات نتائج الإخراج.
ملاحظة:
عند تشغيل prepro.py ، قم بتعديل الرموز الثلاثة في الأسطر 123 و 143 و 166 حسب الحاجة.
عند تشغيل pre_graph.py ، قم بتعديل رمزين في 127 و 140 خطًا حسب الحاجة.
senti_pre.py وقت التشغيل لتعديل رمز السطر 119 حسب الحاجة
Zh_wiki.py ، langconv.py
يتم استخدام هذين الملفان PY للصينيين التقليديين لتبسيط الصينيين دون تعديل
Word Cloud: WC.Py (تحتاج إلى إنهاء prepro.py)
تعديل 3 ، 19 ، 26 سطر رمز حسب الحاجة
خريطة الشعبية: map.py (تحتاج إلى إكمال prepro.py)
تعديل رمز السطر 8 حسب الحاجة
إعادة نشر ، تعليق ، مثل السلسلة الزمنية: line.py (تحتاج إلى تشغيل senti_pre.py و senti_analy.py)
مخطط علاقة تعليق Weibo: Graph.py (بحاجة إلى تشغيل pre_graph.py)
(الرجوع إلى)
مجموعة النص: cluster_tfidf.py و cluster_w2v.py (تحتاج إلى تشغيل prepro.py)
تحليل نموذج موضوع LDA: lda.py (بحاجة إلى تشغيل senti_pre.py) tree.py (بحاجة إلى تشغيل senti_analy.py)
تحليل Senti (القاموس): senti_analy.py (بحاجة إلى تشغيل senti_pre.py) 3dbar.py (بحاجة إلى تشغيل senti_analy.py) pie.py (تحتاج إلى تشغيل senti_analy.py)
تحليل المشاعر (W2V+LSTM): Senti_lstm.py في مستند المشاعر-تحليل التحليل (بحاجة إلى تشغيل senti_pre.py)
تعديل 250 خطًا من الكود وفقًا للوضع
بعض المستندات كبيرة جدًا وتوضع في رابط Baidu NetDisk:
الرابط: https://pan.baidu.com/S/1L447D3D6OSD_YALSF7B_MA رمز الاستخراج: OG9T
تحليل تشابه النص: مماثل .
آخرون متاحون للرجوع إليه: senti_analy_refer.py ، sument_lstm.py
حول senti_keyword_total_id.csv:
تنزيل 8. Senti_keyword_total_id.csv في Baidu NetDisk. فيما يلي تفسيرًا: هذا الملف هو نفسه تقريبًا مثل Senti_keyword_total.csv ، ولكن هناك عمود إضافي من Weibo_id (الكود لإنشاء Senti_keyword_total_id.csv لم يعد يتم توزيعه هنا. إنه يستخدم مباشرة لإنشاء senti_keyword_total_id.csv. Senti_analy.py وأضف عمودًا من Weibo_id). Baidu NetDisk في 8 (هناك senti_keyword_total_id.csv و senti_keyword_total.csv ، وكذلك جميع التعليقات وجميع المحتويات). نظرًا لأن Lines.py والكلمات الأخرى تتطلب جميع الكلمات الرئيسية ، فأنت بحاجة إلى استخدام Senti_analy.py لتشغيل جميع Comment.json و content.json لإنشاء senti_keyword_total.csv (فقط قطرة من قرص الشبكة ، senti_keyword_total_id.csv ثم تشغيل الخطوط ، 3dbar.py ، pie.py)