Sina Weibo、クローラーリンク:
https://github.com/huangzhihao1994/weibospider-keyword
Weiboコンテンツデータ構造(MongoデータベースによってエクスポートされるJSONドキュメント)
content_example:
[
{'_id': '1177737142_H4PSVeZWD', 'keyword': 'A股', 'crawl_time': '2019-06-01 20:31:13', 'weibo_url': 'https://weibo.com/1177737142/H4PSVeZWD', 'user_id': '1177737142', 'created_at': '2018-11-29 03:02:30', 'tool': 'Android', 'like_num': {'$numberInt': '0'}, 'repost_num': {'$numberInt': '0'}, 'comment_num': {'$numberInt': '0'}, 'image_url': 'http://wx4.sinaimg.cn/wap180/4632d7b6ly1fxod61wktyj20u00m8ahf.jpg', 'content': '#a股观点# 鲍威尔主席或是因为被特朗普总统点名批评后萌生悔改之意,今晚一番讲话被市场解读为美联储或暂停加息步伐。美元指数应声下挫,美股及金属贵金属价格大幅上扬,A50表现也并不逊色太多。对明天A股或有积极影响,反弹或能得以延续。 [组图共2张]'},...
]
Weiboコメントデータ構造(MongoデータベースによってエクスポートされるJSONドキュメント)
comment_example:
[
{'_id': 'C_4322161898716112', 'crawl_time': '2019-06-01 20:35:36', 'weibo_url': 'https://weibo.com/1896820725/H9inNf22b', 'comment_user_id': '6044625121', 'content': '没问题,', 'like_num': {'$numberInt': '0'}, 'created_at': '2018-12-28 11:19:21'},...
]
pretro.py、pre_graph.py、senti_pre.py
さまざまな分析のニーズを満たすためには、データの前処理が必要です。特定の必要なデータファイルタイプと出力結果データ構造については、これら3つのPyファイルを参照してください。
PS:
pretro.pyが実行されたら、必要に応じて123、143、および166の3つのコードを変更します。
pre_graph.pyが実行されたら、必要に応じて127行と140行で2つのコードを変更します。
必要に応じて、 senti_pre.pyランタイム行119コードを変更します
Zh_wiki.py、langconv.py
これらの2つのPyファイルは、修正なしで伝統的な中国人から単純化された中国人に使用されます
Word Cloud:Wc.py (prepro.pyを終了する必要があります)
必要に応じて、3、19、26行のコードを変更します
人気マップ: map.py (prepro.pyを完了する必要があります)
必要に応じて8行目のコードを変更します
再投稿、コメント、時系列のように: line.py (senti_pre.pyおよびsenti_analy.pyを実行する必要があります)
weiboコメント関係図: graph.py (pre_graph.pyを実行する必要があります)
(参照)
テキストクラスタリング: cluster_tfidf.pyおよびcluster_w2v.py (prepro.pyを実行する必要があります)
LDAテーマモデル分析: LDA.py (senti_pre.pyを実行する必要がある) tree.py (senti_analy.pyを実行する必要があります)
Senti Analysis(辞書): senti_analy.py (senti_pre.pyを実行する必要があります) 3dbar.py (senti_analy.pyを実行する必要があります) pie.py (senti_analy.pyを実行する必要があります)
センチメント分析(W2V+LSTM):Senti_lstm.py in sentiment-analysis-masterドキュメント(senti_pre.pyを実行する必要があります)
状況に応じて250行のコードを変更します
一部のドキュメントは大きすぎて、Baidu NetDiskリンクに配置されています。
リンク:https://pan.baidu.com/s/1l447d3d6osd_yalsf7b_ma抽出コード:og9t
テキストの類似性分析:同様の.py (参照のみ)
その他は参照可能です: senti_analy_refer.py、sentiment_lstm.py
senti_keyword_total_id.csvについて:
8。senti_keyword_total_id.csvをBaidu netdiskにダウンロードします。以下は説明です:このファイルはsenti_keyword_total.csvとほとんど同じですが、weibo_idの追加列があります(senti_keyword_total_id.csvを生成するコードはもはや提供されていません。senti_keyword_total_id.csv。 senti_analy.pyとweibo_idの列を追加)。 Baidu netdisk in 8(senti_keyword_total_id.csvとsenti_keyword_total.csv、およびすべてのコメントとすべてのコンテンツがあります)。 lines.pyおよびその他の単語にはすべてのキーワードが必要なので、 senti_analy.pyを使用してすべてのcomment.jsonとcontent.jsonを直接実行してsenti_keyword_total.csvを生成する必要があります(senti_keyword_total_keyword_total_keyword_total_id.csvからドロップして、ライン、3dbar.py、pie.py.py.pie.py.pi