Sina Weibo, Crawler -Link:
https://github.com/huangzhihao1994/weibospider-keyword
Weibo -Inhaltsdatenstruktur (JSON -Dokument exportiert von der Mongo -Datenbank)
content_example:
[
{'_id': '1177737142_H4PSVeZWD', 'keyword': 'A股', 'crawl_time': '2019-06-01 20:31:13', 'weibo_url': 'https://weibo.com/1177737142/H4PSVeZWD', 'user_id': '1177737142', 'created_at': '2018-11-29 03:02:30', 'tool': 'Android', 'like_num': {'$numberInt': '0'}, 'repost_num': {'$numberInt': '0'}, 'comment_num': {'$numberInt': '0'}, 'image_url': 'http://wx4.sinaimg.cn/wap180/4632d7b6ly1fxod61wktyj20u00m8ahf.jpg', 'content': '#a股观点# 鲍威尔主席或是因为被特朗普总统点名批评后萌生悔改之意,今晚一番讲话被市场解读为美联储或暂停加息步伐。美元指数应声下挫,美股及金属贵金属价格大幅上扬,A50表现也并不逊色太多。对明天A股或有积极影响,反弹或能得以延续。 [组图共2张]'},...
]
Weibo -Kommentardatenstruktur (JSON -Dokument exportiert von der Mongo -Datenbank)
comment_example:
[
{'_id': 'C_4322161898716112', 'crawl_time': '2019-06-01 20:35:36', 'weibo_url': 'https://weibo.com/1896820725/H9inNf22b', 'comment_user_id': '6044625121', 'content': '没问题,', 'like_num': {'$numberInt': '0'}, 'created_at': '2018-12-28 11:19:21'},...
]
prepro.py, pre_graph.py, senti_pre.py
Um verschiedene Analyseanforderungen zu erfüllen, ist eine Datenvorverarbeitung erforderlich. In diesen drei PY -Dateien finden Sie die spezifischen Datenstruktur für den erforderlichen Dateityp und die Ausgabeergebnis.
PS:
Wenn Prepro.py ausgeführt wird, ändern Sie die drei Codes in den Zeilen 123, 143 und 166 nach Bedarf.
Wenn pre_graph.py ausgeführt wird, ändern Sie zwei Codes nach Bedarf bei 127 und 140 Zeilen.
Senti_pre.py runtime, um Zeile 119 Code nach Bedarf zu ändern
zh_wiki.py, Langconv.py
Diese beiden PY -Dateien werden an herkömmliche Chinesen verwendet, um Chinesisch ohne Änderung zu vereinfachen
Word Cloud: WC.py (muss Prepro.py beenden)
Ändern Sie nach Bedarf 3, 19, 26 Codezeilen
Popularity Map: map.py (muss prepro.py vervollständigen)
Ändern Sie den Code von Zeile 8 nach Bedarf
Repost, Kommentar, wie Zeitreihe: line.py (muss senti_pre.py und senti_analy.py ausführen)
Weibo Kommentarbeziehungsdiagramm: Graph.py (muss Pre_Graph.py ausführen)
(Siehe)
Textclustering: cluster_tfidf.py und cluster_w2v.py (müssen prepro.py ausführen)
LDA -Themenmodellanalyse: lda.py (muss senti_pre.py ausführen) tree.py (muss senti_analy.py ausführen)
Senti -Analyse (Dictionary): senti_analy.py (muss senti_pre.py ausführen) 3dbar.py (muss senti_analy.py ausführen) pie.py (muss senti_analy.py ausführen)
Sentiment Analysis (W2V+LSTM): Senti_Lstm.py im Dokument der Sentiment-Analyse-Master (muss Senti_Pre.py ausführen)
Ändern Sie 250 Codezeilen gemäß der Situation
Einige Dokumente sind zu groß und werden im Baidu NetDisk -Link platziert:
Link: https://pan.baidu.com/s/1l447d3d6osd_yalsf7b_ma Extraktionscode: OG9T
Textähnlichkeitsanalyse: ähnlich.py (nur als Referenz)
Andere stehen zur Referenz zur Verfügung: senti_analy_refer.py, sentiment_lstm.py
Über senti_keyword_total_id.csv:
Download 8. senti_keyword_total_id.csv in baidu netdisk. Das Folgende ist eine Erklärung: Diese Datei ist fast die gleiche wie senti_keyword_total.csv, aber es gibt eine zusätzliche Spalte von wibo_id (der Code zum Generieren von senti_keyword_total_id.csv wird hier nicht mehr angegeben. Es wird direkt verwendet, um senti_kewword_total_id.csv. senti_analy.py und fügen Sie eine Spalte von wibo_id hinzu). Baidu NetDisk in 8 (es gibt senti_keyword_total_id.csv und senti_keyword_total.csv sowie alle Kommentare und alle Inhalte). Da Linien.Py und andere Wörter alle Schlüsselwörter erfordern, müssen Sie senti_analy.py verwenden, um alle comment.json und content.json direkt auszuführen, um senti_keyword_total.csv zu generieren.