Sina Weibo, 크롤러 링크 :
https://github.com/huangzhihao1994/weibospider-keyword
Weibo Content Data Struction (Mongo 데이터베이스에서 내보낸 JSON 문서)
content_example:
[
{'_id': '1177737142_H4PSVeZWD', 'keyword': 'A股', 'crawl_time': '2019-06-01 20:31:13', 'weibo_url': 'https://weibo.com/1177737142/H4PSVeZWD', 'user_id': '1177737142', 'created_at': '2018-11-29 03:02:30', 'tool': 'Android', 'like_num': {'$numberInt': '0'}, 'repost_num': {'$numberInt': '0'}, 'comment_num': {'$numberInt': '0'}, 'image_url': 'http://wx4.sinaimg.cn/wap180/4632d7b6ly1fxod61wktyj20u00m8ahf.jpg', 'content': '#a股观点# 鲍威尔主席或是因为被特朗普总统点名批评后萌生悔改之意,今晚一番讲话被市场解读为美联储或暂停加息步伐。美元指数应声下挫,美股及金属贵金属价格大幅上扬,A50表现也并不逊色太多。对明天A股或有积极影响,反弹或能得以延续。 [组图共2张]'},...
]
Weibo 댓글 데이터 구조 (JSON 문서는 Mongo 데이터베이스에 의해 내보 렸습니다)
comment_example:
[
{'_id': 'C_4322161898716112', 'crawl_time': '2019-06-01 20:35:36', 'weibo_url': 'https://weibo.com/1896820725/H9inNf22b', 'comment_user_id': '6044625121', 'content': '没问题,', 'like_num': {'$numberInt': '0'}, 'created_at': '2018-12-28 11:19:21'},...
]
prepro.py, pre_graph.py, senti_pre.py
다양한 분석 요구를 충족시키기 위해서는 데이터 전처리가 필요합니다. 특정 필수 데이터 파일 유형 및 출력 결과 데이터 구조에 대해서는이 세 가지 PY 파일을 참조하십시오.
추신:
prepro.py가 실행되면 필요에 따라 123, 143 및 166 행에서 세 코드를 수정하십시오.
pre_graph.py가 실행되면 필요에 따라 127 및 140 줄에서 두 코드를 수정하십시오.
Senti_pre.py 런타임 필요에 따라 Line 119 코드를 수정합니다
zh_wiki.py, langconv.py
이 두 PY 파일은 수정없이 중국어를 단순화하기 위해 전통적인 중국어에 사용됩니다.
Word Cloud : wc.py (prepro.py를 완료해야 함)
필요에 따라 3, 19, 26 줄의 코드를 수정하십시오
인기지도 : Map.py (완료해야)
필요에 따라 Line 8 코드를 수정하십시오
REPOST, COMMING, TIME SERIES : LINE.PY (SENTI_PRE.PY 및 SENTI_ANALY.PY를 실행해야합니다)
Weibo 주석 관계 다이어그램 : Graph.py (pre_graph.py를 실행해야 함)
(참조)
텍스트 클러스터링 : cluster_tfidf.py 및 cluster_w2v.py (prepro.py를 실행해야 함)
LDA 테마 모델 분석 : lda.py (senti_pre.py를 실행해야 할 필요) tree.py (Senti_analy.py를 실행해야 함)
Senti Analysis (Dictionary) : Senti_analy.py (Senti_Pre.py를 실행해야 함) 3dbar.py (Senti_analy.py를 실행해야 함) pie.py (Senti_analy.py를 실행해야 함)
감정 분석 (W2V+LSTM) : Sentime-Analysis-Master 문서의 Senti_lstm.py (senti_pre.py를 실행해야 함)
상황에 따라 250 줄의 코드를 수정하십시오
일부 문서는 너무 커서 Baidu NetDisk 링크에 배치됩니다.
링크 : https://pan.baidu.com/s/1l447d3d6osd_yalsf7b_ma 추출 코드 : OG9T
텍스트 유사성 분석 : 유사 .py (참조 만)
다른 기타는 참조 할 수 있습니다 : senti_analy_refer.py, sentiment_lstm.py
senti_keyword_total_id.csv 소개 :
Baidu Netdisk에서 8. Senti_keyword_total_id.csv를 다운로드하십시오. 다음은 설명입니다.이 파일은 senti_keyword_total.csv와 거의 동일하지만 weibo_id의 추가 열이 있습니다 (senti_keyword_total_id.csv를 생성하는 코드는 더 이상 여기에 제공되지 않습니다. senti_keyword_total_id.csv를 생성하는 데 직접 사용됩니다. senti_analy.py 및 weibo_id의 열을 추가하십시오). 8의 Baidu NetDisk (senti_keyword_total_id.csv 및 senti_keyword_total.csv와 모든 주석 및 모든 내용이 있습니다). lines.py 및 기타 단어는 모든 키워드가 필요하기 때문에 senti_analy.py를 사용하여 모든 댓글을 직접 실행해야합니다. json 및 content.json은 senti_keyword_total.csv (네트워크 디스크에서 삭제 한 다음 senti_keyword_total_id.csv에서 삭제하고 3dbar.py, pie.py를 실행합니다.