Sina Weibo, Crawler Link:
https://github.com/huangzhihao1994/weibosider-keyword
Structure de données de contenu de Weibo (document JSON exporté par Mongo Database)
content_example:
[
{'_id': '1177737142_H4PSVeZWD', 'keyword': 'A股', 'crawl_time': '2019-06-01 20:31:13', 'weibo_url': 'https://weibo.com/1177737142/H4PSVeZWD', 'user_id': '1177737142', 'created_at': '2018-11-29 03:02:30', 'tool': 'Android', 'like_num': {'$numberInt': '0'}, 'repost_num': {'$numberInt': '0'}, 'comment_num': {'$numberInt': '0'}, 'image_url': 'http://wx4.sinaimg.cn/wap180/4632d7b6ly1fxod61wktyj20u00m8ahf.jpg', 'content': '#a股观点# 鲍威尔主席或是因为被特朗普总统点名批评后萌生悔改之意,今晚一番讲话被市场解读为美联储或暂停加息步伐。美元指数应声下挫,美股及金属贵金属价格大幅上扬,A50表现也并不逊色太多。对明天A股或有积极影响,反弹或能得以延续。 [组图共2张]'},...
]
La structure des données de commentaire de Weibo (document JSON exporté par Mongo Database)
comment_example:
[
{'_id': 'C_4322161898716112', 'crawl_time': '2019-06-01 20:35:36', 'weibo_url': 'https://weibo.com/1896820725/H9inNf22b', 'comment_user_id': '6044625121', 'content': '没问题,', 'like_num': {'$numberInt': '0'}, 'created_at': '2018-12-28 11:19:21'},...
]
prepro.py, pre_graph.py, seti_pre.py
Afin de répondre à divers besoins d'analyse, le prétraitement des données est nécessaire. Voir ces trois fichiers PY pour le type de fichier de données et la structure de données de résultats de sortie requises spécifiques.
PS:
Lorsque PrePro.py s'exécute, modifiez les trois codes dans les lignes 123, 143 et 166 au besoin.
Lorsque pre_graph.py s'exécute, modifiez deux codes à 127 et 140 lignes au besoin.
Senti_pre.py Runtime pour modifier le code de la ligne 119 au besoin
zh_wiki.py, langConv.py
Ces deux fichiers PY sont habitués aux chinois traditionnels pour simplifier le chinois sans modification
Cloud de mots: wc.py (besoin de terminer prepro.py)
Modifiez 3, 19, 26 lignes de code au besoin
Carte de popularité: map.py (besoin de terminer prepro.py)
Modifiez le code de la ligne 8 au besoin
Republier, commentaire, comme la série chronologique: line.py (besoin d'exécuter Senti_pre.py et Senti_analy.py)
Diagramme de la relation de commentaire de Weibo: graph.py (besoin d'exécuter pre_graph.py)
(reportez-vous à)
Clustering de texte: cluster_tfidf.py et cluster_w2v.py (besoin d'exécuter prepro.py)
Analyse du modèle de thème LDA: lda.py (besoin d'exécuter Senti_pre.py) Tree.py (besoin d'exécuter Senti_analy.py)
Senti Analysis (Dictionary): Senti_analy.py (besoin d'exécuter Senti_pre.py) 3dbar.py (besoin d'exécuter Senti_analy.py) PIE.PY (Besoin d'exécuter Senti_analy.py)
Analyse des sentiments (W2V + LSTM): Senti_lstm.py dans le document Sentiment-Analysis-Master (Besoin d'exécuter Senti_pre.py)
Modifier 250 lignes de code selon la situation
Certains documents sont trop grands et placés dans le lien Baidu Netdisk:
Lien: https://pan.baidu.com/s/1l447d3d6osd_yalsf7b_ma Code d'extraction: Og9t
Analyse de similitude du texte: similaire (pour référence uniquement)
D'autres sont disponibles pour référence: Senti_analy_refer.py, Sentiment_lstm.py
À propos de Senti_keyword_Total_id.csv:
Télécharger 8. Senti_keyword_total_id.csv dans baidu netdisk. Ce qui suit est une explication: ce fichier est presque le même que Senti_keyword_total.csv, mais il existe une colonne supplémentaire de Weibo_id (le code pour générer Senti_keyword_Total_id.csv n'est plus donné ici. seti_analy.py et ajouter une colonne de Weibo_id). Baidu netdisk en 8 (il y a SENTI_KEYWORD_TOTAL_ID.CSV et SENTI_KEYWORD_TOTAL.csv, ainsi que tous les commentaires et tous les contenus). Étant donné que les lignes.py et d'autres mots nécessitent tous les mots clés, vous devez utiliser Senti_analy.py pour exécuter directement tous les commentaires.json et content.json pour générer SENTI_KEYWORD_TOTAL.csv (ensuite passer à partir du disque de réseau, Senti_keyword_Total_id.csv et ensuite exécuter lines.py, 3dbar.pie, pie.py)