weibo_terminator_workflow
1.0.0
這個項目是之前項目的重啟版本,之前的項目地址這裡,那個項目依舊會保持更新,這是weibo terminator的工作版本,這個版本對上一個版本做了一些優化,這裡的最終目標是一起爬取語料,包括情感分析、對話語料、輿論風控、大數據分析等應用。
更新:
大家可以pull一下更新。
經過一些小修改和幾位contributor的PR,代碼發生了一些小變化,基本上都是在修復bug和完善一些邏輯,修改如下:
WeiboScraper has not attribute weibo_content的錯誤,新代碼已經修復;@Fence 提交PR修改了一些內容:
大家可以git pull origin master , 獲取一下新更新的版本,同時也歡迎大家繼續問我要uuid,我會定時把名單公佈在contirbutor.txt中,我近期在做數據merge的工作,以及數據清洗,分類等工作,merge工作完成之後會把大數據集分發給大家。
對上一版本做了以下改進:
更更加重要的是! ! ! ,在這一版本中,爬蟲的智能性得到了很大提升,爬蟲會在爬取每個id的時候,自動去獲取該id的所有粉絲id! !相當於是,我給大家的都是種子id,種子id都是一些明星或者公司或者媒體大V的id,從這些種子id你可以獲取到成千上萬的其他種子id! ! 假如一個明星粉絲是3.4萬,第一次爬取你就可以獲得3.4萬個id,然後在從子代id繼續爬,每個子代id有粉絲100,第二次你就可以獲取到340萬個id! ! !足夠了嗎? ! ! !當然不夠! ! !
我們這個項目永遠不會停止! ! !會一直進行下去,直到收穫足夠多的語料! ! !
(當然實際上我們不能獲得所有粉絲,不過這些也足夠了。)
這一版本的目標是針對contributor,我們的工作流程也非常簡單:
python3 main.py uuid ,這裡說明一下,uuid指定的id爬取完之後才會取爬fans id;依舊貼出一下討論群,歡迎大家添加:
QQ
AI智能自然语言处理: 476464663
Tensorflow智能聊天Bot: 621970965
GitHub深度学习开源交流: 263018023
微信可以加我好友: jintianiloveu
(c) 2017 Jin Fagang & Tianmu Inc. & weibo_terminator authors LICENSE Apache 2.0