weibo_terminator_workflow
1.0.0
这个项目是之前项目的重启版本,之前的项目地址这里,那个项目依旧会保持更新,这是weibo terminator的工作版本,这个版本对上一个版本做了一些优化,这里的最终目标是一起爬取语料,包括情感分析、对话语料、舆论风控、大数据分析等应用。
更新:
大家可以pull一下更新。
经过一些小修改和几位contributor的PR,代码发生了一些小变化,基本上都是在修复bug和完善一些逻辑,修改如下:
WeiboScraper has not attribute weibo_content的错误,新代码已经修复;@Fence 提交PR修改了一些内容:
大家可以git pull origin master, 获取一下新更新的版本,同时也欢迎大家继续问我要uuid,我会定时把名单公布在contirbutor.txt 中,我近期在做数据merge的工作,以及数据清洗,分类等工作,merge工作完成之后会把大数据集分发给大家。
对上一版本做了以下改进:
更更加重要的是!!!,在这一版本中,爬虫的智能性得到了很大提升,爬虫会在爬取每个id的时候,自动去获取该id的所有粉丝id!! 相当于是,我给大家的都是种子id,种子id都是一些明星或者公司或者媒体大V的id,从这些种子id你可以获取到成千上万的其他种子id!! 假如一个明星粉丝是3.4万,第一次爬取你就可以获得3.4万个id,然后在从子代id继续爬,每个子代id有粉丝100,第二次你就可以获取到340万个id!!!足够了吗?!!!当然不够!!!
我们这个项目永远不会停止!!! 会一直进行下去,直到收获足够多的语料!!!
(当然实际上我们不能获得所有粉丝,不过这些也足够了。)
这一版本的目标是针对contributor,我们的工作流程也非常简单:
python3 main.py uuid,这里说明一下,uuid指定的id爬取完之后才会取爬fans id;依旧贴出一下讨论群,欢迎大家添加:
QQ
AI智能自然语言处理: 476464663
Tensorflow智能聊天Bot: 621970965
GitHub深度学习开源交流: 263018023
微信可以加我好友: jintianiloveu
(c) 2017 Jin Fagang & Tianmu Inc. & weibo_terminator authors LICENSE Apache 2.0