Sina Weibo, link de rastreador:
https://github.com/huangzhihao1994/weibospider-keyword
Estrutura de dados de conteúdo do Weibo (documento JSON exportado pelo banco de dados Mongo)
content_example:
[
{'_id': '1177737142_H4PSVeZWD', 'keyword': 'A股', 'crawl_time': '2019-06-01 20:31:13', 'weibo_url': 'https://weibo.com/1177737142/H4PSVeZWD', 'user_id': '1177737142', 'created_at': '2018-11-29 03:02:30', 'tool': 'Android', 'like_num': {'$numberInt': '0'}, 'repost_num': {'$numberInt': '0'}, 'comment_num': {'$numberInt': '0'}, 'image_url': 'http://wx4.sinaimg.cn/wap180/4632d7b6ly1fxod61wktyj20u00m8ahf.jpg', 'content': '#a股观点# 鲍威尔主席或是因为被特朗普总统点名批评后萌生悔改之意,今晚一番讲话被市场解读为美联储或暂停加息步伐。美元指数应声下挫,美股及金属贵金属价格大幅上扬,A50表现也并不逊色太多。对明天A股或有积极影响,反弹或能得以延续。 [组图共2张]'},...
]
Estrutura de dados do Weibo Comentário (documento JSON exportado pelo banco de dados Mongo)
comment_example:
[
{'_id': 'C_4322161898716112', 'crawl_time': '2019-06-01 20:35:36', 'weibo_url': 'https://weibo.com/1896820725/H9inNf22b', 'comment_user_id': '6044625121', 'content': '没问题,', 'like_num': {'$numberInt': '0'}, 'created_at': '2018-12-28 11:19:21'},...
]
prepro.py, pre_graph.py, senti_pre.py
Para atender a várias necessidades de análise, é necessário o pré -processamento de dados. Consulte esses três arquivos PY para obter o tipo de arquivo de dados específico e a estrutura de dados do resultado de saída.
PS:
Quando o Prepro.py executar, modifique os três códigos nas linhas 123, 143 e 166, conforme necessário.
Quando pre_graph.py for executado, modifique dois códigos em linhas 127 e 140, conforme necessário.
Tempo de execução senti_pre.py para modificar o código da linha 119, conforme necessário
zh_wiki.py, LangConv.py
Esses dois arquivos py são usados para chinês tradicional para chinês simplificado sem modificação
Word Cloud: wc.py (preciso terminar o prepro.py)
Modificar 3, 19, 26 linhas de código conforme necessário
Mapa de popularidade: map.py (precisa concluir o prepro.py)
Modifique o código da linha 8 conforme necessário
Repost, comentar, como séries temporais: line.py (preciso executar Senti_pre.py e senti_analy.py)
Diagrama de relacionamento com comentários do Weibo: graf.py (preciso executar pre_graph.py)
(consulte)
Cluster de texto: cluster_tfidf.py e cluster_w2v.py (preciso executar prepro.py)
Análise do modelo de tema LDA: lda.py (preciso executar senta_pre.py) árvore.py (precisa executar senta_analy.py)
Análise Senti (Dictionary): senti_analy.py (precisa executar Senti_pre.py) 3dbar.py (precisa executar Senti_analy.py) pie.py (preciso executar senti_analy.py)
Análise de sentimentos (W2V+LSTM): Senti_LSTM.Py no documento de Sentimento-Análise-Mestre (precisa executar Senti_pre.py)
Modifique 250 linhas de código de acordo com a situação
Alguns documentos são muito grandes e colocados no link do Baidu NetDisk:
Link: https://pan.baidu.com/s/1l447d3d6osd_yalsf7b_ma Código de extração: OG9T
Análise de similaridade de texto: similar.py (somente para referência)
Outros estão disponíveis para referência: senti_analy_refer.py, sentimento_lstm.py
Sobre Senti_keyword_total_id.csv:
Download 8. Senti_keyword_total_id.csv no Baidu NetDisk. A seguir, é uma explicação: Este arquivo é quase o mesmo que senti_keyword_total.csv, mas há uma coluna adicional de weibo_id (o código para gerar senti_keyword_total_id.csv não é mais fornecido aqui. Senti_analy.py e adicione uma coluna de weibo_id). Baidu NetDisk em 8 (existem Senti_keyword_total_id.csv e senti_keyword_total.csv, bem como todos os comentários e todos os conteúdos). Como lines.py e outras palavras exigem todas as palavras -chave, você precisa usar o Senti_analy.py para executar diretamente todos os comentários.json e content.json para gerar senti_keyword_total.csv (basta cair do disco de rede, senti_keyword_total_id.csv e depois linhas de run.py, 3dbar.py, pie.py.py)