Sina Weibo, Crawler Link:
https://github.com/huangzhihao1994/weibospider-keyword
Estructura de datos de contenido de Weibo (documento JSON exportado por la base de datos Mongo)
content_example:
[
{'_id': '1177737142_H4PSVeZWD', 'keyword': 'A股', 'crawl_time': '2019-06-01 20:31:13', 'weibo_url': 'https://weibo.com/1177737142/H4PSVeZWD', 'user_id': '1177737142', 'created_at': '2018-11-29 03:02:30', 'tool': 'Android', 'like_num': {'$numberInt': '0'}, 'repost_num': {'$numberInt': '0'}, 'comment_num': {'$numberInt': '0'}, 'image_url': 'http://wx4.sinaimg.cn/wap180/4632d7b6ly1fxod61wktyj20u00m8ahf.jpg', 'content': '#a股观点# 鲍威尔主席或是因为被特朗普总统点名批评后萌生悔改之意,今晚一番讲话被市场解读为美联储或暂停加息步伐。美元指数应声下挫,美股及金属贵金属价格大幅上扬,A50表现也并不逊色太多。对明天A股或有积极影响,反弹或能得以延续。 [组图共2张]'},...
]
Estructura de datos de comentarios de Weibo (documento JSON exportado por la base de datos Mongo)
comment_example:
[
{'_id': 'C_4322161898716112', 'crawl_time': '2019-06-01 20:35:36', 'weibo_url': 'https://weibo.com/1896820725/H9inNf22b', 'comment_user_id': '6044625121', 'content': '没问题,', 'like_num': {'$numberInt': '0'}, 'created_at': '2018-12-28 11:19:21'},...
]
prepro.py, pre_graph.py, senti_pre.py
Para satisfacer varias necesidades de análisis, se requiere preprocesamiento de datos. Consulte estos tres archivos PY para ver el tipo de archivo de datos requerido específico y la estructura de datos de resultados de salida.
PD:
Cuando se ejecute Prepro.py , modifique los tres códigos en las líneas 123, 143 y 166 según sea necesario.
Cuando se ejecute pre_graph.py , modifique dos códigos en 127 y 140 líneas según sea necesario.
Tiempo de ejecución senti_pre.py para modificar el código de la línea 119 según sea necesario
zh_wiki.py, langconv.py
Estos dos archivos PY se utilizan para chinos tradicionales a chino simplificado sin modificación.
Word Cloud: WC.Py (necesita terminar prepro.py)
Modificar 3, 19, 26 líneas de código según sea necesario
Mapa de popularidad: map.py (necesita completar prepro.py)
Modificar el código de la línea 8 según sea necesario
Repost, comente, me gusta series de tiempo: line.py (necesito ejecutar senti_pre.py y senti_analy.py)
Diagrama de relación de comentarios de Weibo: Graph.py (necesita ejecutar pre_graph.py)
(referirse a)
Clustering de texto: cluster_tfidf.py y cluster_w2v.py (necesita ejecutar prepro.py)
Análisis del modelo de tema LDA: LDA.PY (necesita ejecutar senti_pre.py) tree.py (necesito ejecutar senti_analy.py)
Análisis Senti (Diccionario): Senti_analy.py (necesita ejecutar Senti_pre.py) 3dbar.py (necesito ejecutar Senti_analy.py) PIE.py (necesito ejecutar Senti_analy.py)
Análisis de sentimientos (W2V+LSTM): Senti_lstm.py en el documento de sentiment-analysis-Master (necesita ejecutar Senti_Pre.py)
Modificar 250 líneas de código de acuerdo con la situación
Algunos documentos son demasiado grandes y se colocan en el enlace Baidu NetDisk:
Enlace: https://pan.baidu.com/s/1l447d3d6osd_yalsf7b_ma Código de extracción: OG9T
Análisis de similitud de texto: similar.py (solo para referencia)
Otros están disponibles para referencia: Senti_analy_refer.py, sentiment_lstm.py
Acerca de Senti_Keyword_total_id.csv:
Descargar 8. Senti_keyword_total_id.csv en Baidu NetDisk. La siguiente es una explicación: este archivo es casi el mismo que Senti_Keyword_total.csv, pero hay una columna adicional de weibo_id (el código para generar Senti_Keyword_total_id.csv ya no se da aquí. Senti_analy.py y agregue una columna de weibo_id). Baidu NetDisk en 8 (hay Senti_Keyword_total_id.csv y Senti_keyword_total.csv, así como todos los comentarios y todos los contenidos). Dado que Lines.py y otras palabras requieren todas las palabras clave, debe usar Senti_analy.py para ejecutar directamente todos los comentarios.json y content.json para generar Senti_keyword_total.csv (simplemente suelte desde el disco de red, Senti_keyword_total_id.csv y luego ejecute líneas.py, 3dbar.py, pastel.py)