Sina Weibo, tautan crawler:
https://github.com/huangzhihao1994/weibospider-keyword
Struktur Data Konten Weibo (Dokumen JSON diekspor oleh Mongo Database)
content_example:
[
{'_id': '1177737142_H4PSVeZWD', 'keyword': 'A股', 'crawl_time': '2019-06-01 20:31:13', 'weibo_url': 'https://weibo.com/1177737142/H4PSVeZWD', 'user_id': '1177737142', 'created_at': '2018-11-29 03:02:30', 'tool': 'Android', 'like_num': {'$numberInt': '0'}, 'repost_num': {'$numberInt': '0'}, 'comment_num': {'$numberInt': '0'}, 'image_url': 'http://wx4.sinaimg.cn/wap180/4632d7b6ly1fxod61wktyj20u00m8ahf.jpg', 'content': '#a股观点# 鲍威尔主席或是因为被特朗普总统点名批评后萌生悔改之意,今晚一番讲话被市场解读为美联储或暂停加息步伐。美元指数应声下挫,美股及金属贵金属价格大幅上扬,A50表现也并不逊色太多。对明天A股或有积极影响,反弹或能得以延续。 [组图共2张]'},...
]
Struktur Data Komentar Weibo (Dokumen JSON diekspor oleh Mongo Database)
comment_example:
[
{'_id': 'C_4322161898716112', 'crawl_time': '2019-06-01 20:35:36', 'weibo_url': 'https://weibo.com/1896820725/H9inNf22b', 'comment_user_id': '6044625121', 'content': '没问题,', 'like_num': {'$numberInt': '0'}, 'created_at': '2018-12-28 11:19:21'},...
]
prepro.py, pre_graph.py, senti_pre.py
Untuk memenuhi berbagai kebutuhan analisis, preprocessing data diperlukan. Lihat ketiga file PY ini untuk jenis file data yang diperlukan spesifik dan struktur data hasil output.
PS:
Saat prepro.py berjalan, ubah tiga kode di baris 123, 143, dan 166 sesuai kebutuhan.
Saat pre_graph.py berjalan, ubah dua kode pada 127 dan 140 baris sesuai kebutuhan.
Runtime senti_pre.py untuk memodifikasi kode baris 119 sesuai kebutuhan
zh_wiki.py, langconv.py
Kedua file PY ini digunakan untuk bahasa Mandarin tradisional untuk Sederhana Tanpa Modifikasi
Word Cloud: wc.py (perlu menyelesaikan prepro.py)
Ubah 3, 19, 26 baris kode sesuai kebutuhan
Peta Popularitas: Map.py (perlu menyelesaikan prepro.py)
Ubah kode baris 8 sesuai kebutuhan
Repost, komentar, seperti rangkaian waktu: line.py (perlu menjalankan senti_pre.py dan senti_analy.py)
Diagram Hubungan Komentar Weibo: Graph.py (perlu menjalankan pre_graph.py)
(Lihat)
Clustering teks: cluster_tfidf.py dan cluster_w2v.py (perlu menjalankan prepro.py)
Analisis model tema LDA: lda.py (perlu menjalankan senti_pre.py) tree.py (perlu menjalankan senti_analy.py)
Analisis sentti (kamus): senti_analy.py (perlu menjalankan senti_pre.py) 3dbar.py (perlu menjalankan senti_analy.py) pie.py (perlu menjalankan senti_analy.py)
Analisis Sentimen (W2V+LSTM): sentti_lstm.py dalam dokumen sentimen-analisis-master (perlu menjalankan senti_pre.py)
Memodifikasi 250 baris kode sesuai dengan situasinya
Beberapa dokumen terlalu besar dan ditempatkan di tautan Netdisk Baidu:
Tautan: https://pan.baidu.com/s/1l447d3d6osd_yalsf7b_ma Kode ekstraksi: OG9T
Analisis Kesamaan Teks: Sedikit.py (hanya untuk referensi)
Lainnya tersedia untuk referensi: senti_analy_refer.py, sentiment_lstm.py
Tentang sentti_keyword_total_id.csv:
Unduh 8. SENTI_KEYWORD_TOTAL_ID.CSV di Baidu Netdisk. Berikut ini adalah penjelasan: File ini hampir sama dengan senti_keyword_total.csv, tetapi ada kolom tambahan weibo_id (kode untuk menghasilkan sentti_keyword_total_id.csv tidak lagi diberikan di sini. Ini digunakan secara langsung untuk menghasilkan sentti_keyword_total_id.csv. The Homeated digunakan untuk membuat sentsi_keyword_total_id.csv. The Generated digunakan untuk menghasilkan homeated yang dihasilkan homeated digunakan untuk menghasilkan homeateding, The Generated untuk menghasilkan sentsi_keyword_total_id.csv. senti_analy.py dan tambahkan kolom weibo_id). Baidu netdisk di 8 (ada senti_keyword_total_id.csv dan senti_keyword_total.csv, serta semua komentar dan semua konten). Karena line.py dan kata -kata lain memerlukan semua kata kunci, Anda perlu menggunakan senti_analy.py untuk langsung menjalankan semua komentar.json dan content.json untuk menghasilkan sentti_keyword_total.csv (cukup jatuhkan dari disk jaringan, pie_keyword_total_id.csv dan kemudian jalankan line.py, 3dbar.py)