Sina Weibo, Crawler Link:
https://github.com/huangzhihao1994/weibospider-keyword
Структура данных контента Weibo (документ JSON, экспортируемый базой данных Mongo)
content_example:
[
{'_id': '1177737142_H4PSVeZWD', 'keyword': 'A股', 'crawl_time': '2019-06-01 20:31:13', 'weibo_url': 'https://weibo.com/1177737142/H4PSVeZWD', 'user_id': '1177737142', 'created_at': '2018-11-29 03:02:30', 'tool': 'Android', 'like_num': {'$numberInt': '0'}, 'repost_num': {'$numberInt': '0'}, 'comment_num': {'$numberInt': '0'}, 'image_url': 'http://wx4.sinaimg.cn/wap180/4632d7b6ly1fxod61wktyj20u00m8ahf.jpg', 'content': '#a股观点# 鲍威尔主席或是因为被特朗普总统点名批评后萌生悔改之意,今晚一番讲话被市场解读为美联储或暂停加息步伐。美元指数应声下挫,美股及金属贵金属价格大幅上扬,A50表现也并不逊色太多。对明天A股或有积极影响,反弹或能得以延续。 [组图共2张]'},...
]
Структура данных комментариев Weibo (документ JSON, экспортируемый базой данных Mongo)
comment_example:
[
{'_id': 'C_4322161898716112', 'crawl_time': '2019-06-01 20:35:36', 'weibo_url': 'https://weibo.com/1896820725/H9inNf22b', 'comment_user_id': '6044625121', 'content': '没问题,', 'like_num': {'$numberInt': '0'}, 'created_at': '2018-12-28 11:19:21'},...
]
prepro.py, pre_graph.py, senti_pre.py
Чтобы удовлетворить различные потребности в анализе, требуется предварительная обработка данных. См. Эти три файла PY для конкретного необходимого типа файла данных и структуры данных результата вывода.
PS:
Когда запускается Prefro.py , измените три кода в строках 123, 143 и 166 по мере необходимости.
Когда запускается pre_graph.py , измените два кода в 127 и 140 строках по мере необходимости.
Средство выполнения senti_pre.py для изменения кода строки 119 по мере необходимости
zh_wiki.py, langconv.py
Эти два файла PY используются для традиционного китайца для упрощенного китайца без модификации
Word Cloud: Wc.py (нужно закончить prefro.py)
Изменить 3, 19, 26 строк кода по мере необходимости
Карта популярности: map.py (необходимо завершить prefro.py)
По мере необходимости изменить строку 8
Репост, комментарий, как временные ряды: line.py (необходимо запустить senti_pre.py и senti_analy.py)
Диаграмма отношений с комментариями Weibo: graph.py (нужно запустить pre_graph.py)
(См.)
Текстовая кластеризация: cluster_tfidf.py и cluster_w2v.py (необходимо запустить prepro.py)
Анализ модели темы LDA: lda.py (необходимо запустить senti_pre.py) tree.py (необходимо запустить senti_analy.py)
Анализ Senti (словарь): senti_analy.py (необходимость запустить senti_pre.py) 3dbar.py (необходимость запустить senti_analy.py) pie.py (необходимость запустить senti_analy.py)
Анализ настроений (W2V+LSTM): senti_lstm.py в документе-мастере настроения (необходимо запустить senti_pre.py)
Изменить 250 строк кода в соответствии с ситуацией
Некоторые документы слишком велики и размещены в ссылке Baidu NetDisk:
Ссылка: https://pan.baidu.com/s/1l447d3d6osd_yalsf7b_ma код извлечения: OG9T
Анализ сходства текста: аналогичный.py (только для справки)
Другие доступны для справки: senti_analy_refer.py, sentiment_lstm.py
О SENTI_KEYWORD_TOTAL_ID.CSV:
Скачать 8. senti_keyword_total_id.csv в Baidu NetDisk. Ниже приведено объяснение: этот файл почти такой же, как и senti_keyword_total.csv, но существует дополнительный столбец weibo_id (код для генерации senti_keyword_total_id.csv больше не дается. senti_analy.py и добавить столбец weibo_id). Baidu netdisk в 8 (есть senti_keyword_total_id.csv и senti_keyword_total.csv, а также все комментарии и все содержимое). Поскольку lines.py и другие слова требуют всех ключевых слов, вам необходимо использовать senti_analy.py для непосредственного запуска всех Comment.json и Content.json для генерации senti_keyword_total.csv (просто выпадайте с сетевого диска, senti_keyword_total_id.csv и затем запустить lines.py, 3dbar.py, pie.py)