Aliran kerja Weibo Terminator
Proyek ini adalah versi restart dari proyek sebelumnya. Berikut adalah alamat proyek sebelumnya, proyek ini akan tetap diperbarui. Ini adalah versi kerja Weibo Terminator. Versi ini telah membuat beberapa optimisasi ke versi sebelumnya. Tujuan utamanya di sini adalah untuk merangkak bersama, termasuk analisis sentimen, dialog corpus, kontrol risiko opini publik, analisis data besar dan aplikasi lainnya.
UPDATE 2017-5-16
memperbarui:
- Menyesuaikan logika akuisisi cookie pertama, dan jika program tidak mendeteksi cookie, itu akan keluar, mencegah merangkak lebih banyak konten dan mogok;
- Kelas Weiboscraperm telah ditambahkan, yang masih sedang dibangun. Implementasi pengiriman PR dipersilakan. Kelas ini terutama mengimplementasikan merangkak dari nama domain Weibo lainnya, yaitu nama domain seluler;
Anda dapat menarik pembaruan.
UPDATE 2017-5-15
Setelah beberapa modifikasi kecil dan PR dari beberapa kontributor, kode ini telah mengalami beberapa perubahan kecil. Pada dasarnya, ia memperbaiki bug dan meningkatkan beberapa logika, dan modifikasinya adalah sebagai berikut:
- Memperbaiki masalah kesalahan penghematan. Ketika Anda mendorong saat pertama kali Anda perlu menarik kode klon;
- Kesalahan tentang
WeiboScraper has not attribute weibo_content , kode baru telah diperbaiki;
@Fence Kirim PR untuk memodifikasi beberapa konten:
- Istirahat 30 -an tetap asli diganti dengan waktu acak, dan parameter spesifik dapat ditentukan sendiri.
- Menambahkan BIG_V_IDS_FILE untuk merekam ID selebriti yang telah disimpan untuk penggemar; Gunakan format txt untuk memfasilitasi kontributor untuk menambah dan menghapus secara manual
- Halaman merangkak dari kedua fungsi telah diubah menjadi halaman+1 untuk menghindari merangkak berulang ketika breakpoint terus merangkak.
- Ubah "semua weibo dan komentar asli setelah merangkak id" menjadi "simpan setelah merangkak tweet dan komentar setelah merangkak tweet"
- (Opsional) Letakkan bagian yang menyimpan file sebagai fungsi secara terpisah, karena ada 2 dan 3 tempat untuk disimpan masing -masing.
Anda dapat git pull origin master untuk mendapatkan versi yang baru diperbarui. Pada saat yang sama, Anda dipersilakan untuk terus meminta saya untuk UUID. Saya akan secara teratur mempublikasikan daftar di contirbutor.txt . Saya telah melakukan pekerjaan penggabungan data baru -baru ini, serta pembersihan data, klasifikasi, dll. Setelah pekerjaan penggabungan selesai, saya akan mendistribusikan set data besar kepada semua orang.
Memperbaiki
Perbaikan berikut dilakukan untuk versi sebelumnya:
- Tanpa terlalu banyak gangguan, langsung ke topik, berikan ID, dapatkan semua Weibo, jumlah Weibo, jumlah penggemar, semua konten Weibo dan konten komentar pengguna;
- Berbeda dengan versi sebelumnya, kali ini filosofi kami adalah menyimpan semua data ke dalam tiga file acar dan menyimpannya di file kamus. Tujuan dari ini adalah untuk memfasilitasi perayapan breakpoint;
- Pada saat yang sama, perayap yang merangkak tidak akan merangkak lagi, yang berarti bahwa perayap akan mengingat ID yang dirangkak. Setelah setiap ID memperoleh semua konten, itu akan ditandai sebagai merangkak;
- Selain itu, konten Weibo dan komentar Weibo dipisahkan secara terpisah. Ada gangguan selama merangkak konten Weibo. Kedua kalinya tidak akan dirangkak lagi, dan nomor halaman yang terganggu akan terus merangkak dari nomor halaman yang terganggu;
- Yang lebih penting adalah! Lai Lai Setiap perayapan ID tidak berpengaruh satu sama lain. Anda dapat langsung mengambil konten ID dari ID yang Anda inginkan dari file acar, dan Anda dapat melakukan pemrosesan apa pun! Lai
- Selain itu, strategi anti-crawl baru diuji, dan mekanisme keterlambatan yang diadopsi dapat bekerja dengan baik, tetapi itu tidak sepenuhnya tidak terkendali.
Yang lebih penting adalah! Lai Lai , Dalam versi ini, kecerdasan crawler telah sangat ditingkatkan. Saat crawler merangkak setiap ID, ia akan secara otomatis mendapatkan semua ID kipas ID! Lai Ini setara dengan apa yang saya berikan kepada Anda adalah ID benih, dan ID benih adalah ID dari beberapa selebriti, perusahaan atau media besar Vs. Dari ID benih ini, Anda bisa mendapatkan ribuan ID benih lainnya! Lai Jika penggemar selebriti memiliki 34.000, Anda bisa mendapatkan 34.000 ID untuk pertama kalinya merangkak, dan kemudian melanjutkan merangkak dari ID anak. Setiap ID anak memiliki 100 penggemar, dan kedua kalinya Anda bisa mendapatkan 3,4 juta ID! Lai Lai Apakah itu cukup? Lai Lai Lai Tentu saja tidak cukup! Lai Lai
Proyek kami tidak akan pernah berhenti! Lai Lai Ini akan berlanjut sampai cukup banyak korpus! Lai Lai
(Tentu saja kita tidak bisa mendapatkan semua penggemar, tapi ini sudah cukup.)
Aliran kerja
Tujuan dari versi ini adalah untuk menargetkan kontributor, dan alur kerja kami juga sangat sederhana:
- Dapatkan uuid. UUID ini dapat menghubungi 2-3 ID distribusi_ids.pkl. Ini adalah ID benih kami. Tentu saja, Anda juga dapat secara langsung mendapatkan semua ID. Namun, untuk mencegah pekerjaan duplikat, disarankan agar Anda melamar UUID dari saya. Anda hanya bertanggung jawab atas orang Anda. Setelah merangkak, Anda akan memberi makan kembali file terakhir kepada saya. Setelah saya memilah beban yang berat, saya akan mendistribusikan korpus besar terakhir kepada semua orang.
- Jalankan
python3 main.py uuid , izinkan saya menjelaskan di sini bahwa ID kipas merangkak akan diambil setelah ID yang ditentukan oleh UUID dirangkak; - Selesai!
Membahas
Saya masih memposting grup diskusi, dan semua orang dipersilakan untuk menambahkan:
QQ
AI智能自然语言处理: 476464663
Tensorflow智能聊天Bot: 621970965
GitHub深度学习开源交流: 263018023
Anda dapat menambahkan teman saya di wechat: jintianiloveu
Hak cipta
(c) 2017 Jin Fagang & Tianmu Inc. & weibo_terminator authors LICENSE Apache 2.0