weibo_terminator_workflow下載weibo_terminator

weibo_terminator_workflow

其他源碼

1.0.0

下載

Weibo Terminator Work Flow

這個項目是之前項目的重啟版本，之前的項目地址這裡，那個項目依舊會保持更新，這是weibo terminator的工作版本，這個版本對上一個版本做了一些優化，這裡的最終目標是一起爬取語料，包括情感分析、對話語料、輿論風控、大數據分析等應用。

UPDATE 2017-5-16

更新：

調整了首次cookies獲取邏輯，如果程序沒有檢測到cookies就會退出，防止後面爬取不到更多的內容而crash；
增加了WeiBoScraperM 類，目前還在構建中，歡迎submit PR 實現，這個類主要實現從另外一個微博域名爬取，也就是手機域名；

大家可以pull一下更新。

UPDATE 2017-5-15

經過一些小修改和幾位contributor的PR，代碼發生了一些小變化，基本上都是在修復bug和完善一些邏輯，修改如下：

修復了保存出錯的問題，這個大家在第一次push的時候clone的代碼要pull一下;
關於WeiboScraper has not attribute weibo_content的錯誤，新代碼已經修復;

@Fence 提交PR修改了一些內容:

原先的固定30s休息換成隨機時間，具體參數可自己定義
增加了big_v_ids_file，記錄已經保存過粉絲的明星id；用txt格式，方便contributor手動增刪
兩個函數的爬取頁面都改成了page+1，避免斷點續爬時重複爬取上次已經爬過最後一頁
把原先的“爬取完一個id的所有微博及其評論”改為“爬完一條微博及其所有評論就保存”
（Optional）把保存文件的部分單獨為函數，因為分別有2個和3個地方需要保存

大家可以git pull origin master ，獲取一下新更新的版本，同時也歡迎大家繼續問我要uuid，我會定時把名單公佈在contirbutor.txt中，我近期在做數據merge的工作，以及數據清洗，分類等工作，merge工作完成之後會把大數據集分發給大家。

Improve

對上一版本做了以下改進：

沒有了太多的distraction，直奔主題，給定id，獲取該用戶的所有微博，微博數量，粉絲數，所有微博內容以及評論內容；
和上一版本不同的是，這一次我們的理念是把所有數據保存到三個pickle文件中，以字典的文件存儲，這麼做的目的是方便斷點續爬；
同時做到了，已經爬過的id爬蟲不會再次爬取，也就是說爬蟲會記住爬取過的id，每個id獲取完了所有內容之後會被標記為已經爬取；
除此之外，微博內容和微博評論被單獨分開，微博內容爬取過程中出現中斷，第二次不會重新爬取，會從中斷的頁碼繼續爬取；
更加重要的是！！！每個id爬取互不影響，你可以直接從pickle文件中調取出任何你想要的id的微博內容，可以做任何處理！！
除此之外之外，測試了新的反爬策略，採用的延時機制能夠很好的工作，不過還無法完全做到無人控制。

更更加重要的是！！！ ，在這一版本中，爬蟲的智能性得到了很大提升，爬蟲會在爬取每個id的時候，自動去獲取該id的所有粉絲id！！相當於是，我給大家的都是種子id，種子id都是一些明星或者公司或者媒體大V的id，從這些種子id你可以獲取到成千上萬的其他種子id！！假如一個明星粉絲是3.4萬，第一次爬取你就可以獲得3.4萬個id，然後在從子代id繼續爬，每個子代id有粉絲100，第二次你就可以獲取到340萬個id！！！足夠了嗎？！！！當然不夠！！！

我們這個項目永遠不會停止！！！會一直進行下去，直到收穫足夠多的語料！！！

（當然實際上我們不能獲得所有粉絲，不過這些也足夠了。）

Work Flow

這一版本的目標是針對contributor，我們的工作流程也非常簡單：

獲取uuid，這個uuid可以調取到distribute_ids.pkl 的2-3個id，這個是我們的種子id，當然大家也可以直接獲取到所有id，但是為了防止重複工作，建議大家向我申請一個uuid，你只負責你的那個，爬完之後，把最終文件反饋給我，我整理去重之後，把最終的大語料發放給大家。
運行python3 main.py uuid ，這裡說明一下，uuid指定的id爬取完之後才會取爬fans id；
Done！

Discuss

依舊貼出一下討論群，歡迎大家添加：

 QQ
AI智能自然语言处理: 476464663
Tensorflow智能聊天Bot: 621970965
GitHub深度学习开源交流: 263018023

微信可以加我好友： jintianiloveu

Copyright

 (c) 2017 Jin Fagang & Tianmu Inc. & weibo_terminator authors LICENSE Apache 2.0

展開

附加信息

版本 1.0.0
類型其他源碼
更新時間 2025-04-18
大小 22.91KB
來自於 Github

相關應用

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
狗_狐狸_兔子

2022-08-01
麗華資料分析引擎免費版3.0_搜尋_導航_採集_輿情_排行_api

2022-06-28

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3

相關資訊全部