Weibo terminator ไหลเวียน
โครงการนี้เป็นเวอร์ชันรีสตาร์ทของโครงการก่อนหน้านี้ นี่คือที่อยู่โครงการก่อนหน้านี้โครงการจะยังคงได้รับการปรับปรุง นี่คือเวอร์ชันที่ใช้งานได้ของ Weibo Terminator เวอร์ชันนี้ได้ทำการปรับให้เหมาะสมกับเวอร์ชันก่อนหน้า เป้าหมายสูงสุดที่นี่คือการรวบรวมข้อมูลคลังข้อมูลด้วยกันรวมถึงการวิเคราะห์ความเชื่อมั่นคลังข้อมูลการสนทนาการควบคุมความเสี่ยงความคิดเห็นสาธารณะการวิเคราะห์ข้อมูลขนาดใหญ่และแอปพลิเคชันอื่น ๆ
อัปเดต 2017-5-16
ต่ออายุ:
- ปรับตรรกะการซื้อคุกกี้ครั้งแรกและหากโปรแกรมไม่ตรวจจับคุกกี้มันจะออกเพื่อป้องกันการคลานของเนื้อหาและการกระแทกมากขึ้น
- มีการเพิ่มคลาส Weiboscraperm ซึ่งยังอยู่ระหว่างการก่อสร้าง ยินดีต้อนรับการใช้งานการส่ง PR ชั้นเรียนนี้ใช้การรวบรวมข้อมูลจากชื่อโดเมน Weibo อื่นนั่นคือชื่อโดเมนมือถือ
คุณสามารถดึงการอัปเดต
อัปเดต 2017-5-15
หลังจากการปรับเปลี่ยนเล็กน้อยและการประชาสัมพันธ์ของผู้มีส่วนร่วมหลายคนรหัสได้รับการเปลี่ยนแปลงเล็กน้อย โดยพื้นฐานแล้วมันคือการแก้ไขข้อบกพร่องและปรับปรุงตรรกะบางอย่างและการแก้ไขมีดังนี้:
- แก้ไขปัญหาการบันทึกข้อผิดพลาด เมื่อคุณผลักดันครั้งแรกคุณต้องดึงรหัสโคลน
- ข้อผิดพลาดเกี่ยวกับ
WeiboScraper has not attribute weibo_content รหัสใหม่ได้รับการแก้ไขแล้ว
@Fence ส่ง PR เพื่อแก้ไขเนื้อหาบางส่วน:
- ส่วนที่เหลือคงที่ยุค 30 เดิมจะถูกแทนที่ด้วยเวลาสุ่มและพารามิเตอร์เฉพาะสามารถกำหนดได้ด้วยตัวเอง
- เพิ่ม big_v_ids_file เพื่อบันทึกรหัสคนดังที่ได้รับการบันทึกสำหรับแฟน ๆ ; ใช้รูปแบบ TXT เพื่ออำนวยความสะดวกให้กับผู้มีส่วนร่วมในการเพิ่มและลบด้วยตนเอง
- หน้าคลานของฟังก์ชั่นทั้งสองได้ถูกเปลี่ยนเป็นหน้า+1 เพื่อหลีกเลี่ยงการคลานซ้ำเมื่อจุดพักยังคงคลาน
- เปลี่ยนต้นฉบับ "Weibo และความคิดเห็นทั้งหมดหลังจากคลาน ID" เป็น "บันทึกหลังจากคลานทวีตและความคิดเห็นหลังจากคลานทวีต"
- (ไม่บังคับ) ใส่ชิ้นส่วนที่บันทึกไฟล์เป็นฟังก์ชั่นแยกต่างหากเนื่องจากมี 2 และ 3 สถานที่เพื่อบันทึกตามลำดับ
คุณสามารถ git pull origin master เพื่อรับเวอร์ชันที่ได้รับการปรับปรุงใหม่ ในเวลาเดียวกันคุณสามารถขอให้ฉันขอ uuid ต่อไปได้ ฉันจะเผยแพร่รายการเป็นประจำใน contirbutor.txt เมื่อเร็ว ๆ นี้ฉันได้ทำงานแบบรวมข้อมูลรวมถึงการทำความสะอาดข้อมูลการจำแนก ฯลฯ หลังจากงานผสานเสร็จสมบูรณ์ฉันจะแจกจ่ายข้อมูลขนาดใหญ่ให้กับทุกคน
ทำให้ดีขึ้น
การปรับปรุงต่อไปนี้ทำกับเวอร์ชันก่อนหน้า:
- หากไม่มีการรบกวนมากเกินไปให้ตรงไปที่หัวข้อให้ ID รับ Weibo ทั้งหมดจำนวน Weibo จำนวนแฟน ๆ เนื้อหา Weibo ทั้งหมดและเนื้อหาความคิดเห็นของผู้ใช้
- ซึ่งแตกต่างจากเวอร์ชันก่อนหน้านี้เวลานี้ปรัชญาของเราคือการบันทึกข้อมูลทั้งหมดลงในไฟล์ดองสามไฟล์และจัดเก็บไว้ในไฟล์พจนานุกรม จุดประสงค์ของสิ่งนี้คือเพื่ออำนวยความสะดวกในการคลานจุดพัก
- ในเวลาเดียวกันตัวรวบรวมข้อมูลที่รวบรวมข้อมูลจะไม่คลานอีกครั้งซึ่งหมายความว่าตัวรวบรวมข้อมูลจะจดจำรหัสที่รวบรวมข้อมูล หลังจากแต่ละ ID ได้รับเนื้อหาทั้งหมดมันจะถูกทำเครื่องหมายว่าเป็นคลาน;
- นอกจากนี้ความคิดเห็นของ Weibo และความคิดเห็นของ Weibo จะแยกจากกัน มีการหยุดชะงักในระหว่างการรวบรวมข้อมูลของ Weibo ครั้งที่สองที่จะไม่ถูกรวบรวมข้อมูลอีกครั้งและหมายเลขหน้าขัดจังหวะจะดำเนินต่อไปเพื่อรวบรวมข้อมูลจากหมายเลขหน้าขัดจังหวะ
- สิ่งที่สำคัญกว่าคืออะไร! - - การรวบรวมข้อมูล ID แต่ละครั้งไม่มีผลต่อกันและกัน คุณสามารถดึงเนื้อหา ID ใด ๆ ของ ID ที่คุณต้องการได้โดยตรงจากไฟล์ Pickle และคุณสามารถทำการประมวลผลได้! -
- นอกจากนี้กลยุทธ์การต่อต้านการคลานใหม่ได้รับการทดสอบและกลไกการหน่วงเวลาที่นำมาใช้นั้นสามารถทำงานได้ดี แต่ก็ไม่สามารถควบคุมได้อย่างสมบูรณ์
สิ่งที่สำคัญกว่าคืออะไร! - - ในรุ่นนี้ความฉลาดของ Crawler ได้รับการปรับปรุงอย่างมาก เมื่อตัวรวบรวมข้อมูลรวบรวมข้อมูลแต่ละ ID เขาจะได้รับรหัสแฟนทั้งหมดของ ID โดยอัตโนมัติ! - มันเทียบเท่ากับสิ่งที่ฉันให้คุณคือ ID เมล็ดพันธุ์และรหัสเมล็ดพันธุ์เป็นรหัสของคนดัง บริษัท หรือสื่อ Big Vs จากรหัสเมล็ดพันธุ์เหล่านี้คุณสามารถรับรหัสเมล็ดอื่น ๆ นับพัน! - หากแฟนคนดังมี 34,000 คุณจะได้รับ 34,000 ID เป็นครั้งแรกที่คลานไปแล้วคลานออกจาก ID เด็กต่อไป ID เด็กแต่ละคนมีแฟน ๆ 100 คนและครั้งที่สองที่คุณได้รับ 3.4 ล้าน ID! - - เพียงพอหรือไม่? - - - ไม่เพียงพอ! - -
โครงการของเราจะไม่หยุด! - - มันจะดำเนินต่อไปจนกว่าจะเก็บเกี่ยวคลังข้อมูลเพียงพอ! - -
(แน่นอนว่าเราไม่สามารถรับแฟน ๆ ทั้งหมดได้ แต่สิ่งเหล่านี้ก็เพียงพอแล้ว)
กระแสงาน
เป้าหมายของรุ่นนี้คือการกำหนดเป้าหมายผู้สนับสนุนและเวิร์กโฟลว์ของเราก็ง่ายมากเช่นกัน:
- รับ uuid UUID นี้สามารถโทร 2-3 ID ของ Distribution_ids.pkl นี่คือรหัสเมล็ดพันธุ์ของเรา แน่นอนคุณสามารถรับ ID ทั้งหมดได้โดยตรง อย่างไรก็ตามเพื่อป้องกันการทำงานที่ซ้ำกันขอแนะนำให้คุณสมัคร UUID จากฉัน คุณเป็นผู้รับผิดชอบเพียงคนเดียว หลังจากคลานคุณจะป้อนไฟล์สุดท้ายให้ฉัน หลังจากที่ฉันเรียงลำดับภาระหนักฉันจะแจกจ่ายคลังข้อมูลขนาดใหญ่สุดท้ายให้กับทุกคน
- เรียกใช้
python3 main.py uuid ให้ฉันอธิบายที่นี่ว่ารหัสแฟนคลานจะถูกเรียกคืนหลังจาก ID ที่ระบุโดย UUID นั้นถูกรวบรวมข้อมูล; - เสร็จแล้ว!
หารือ
ฉันยังคงโพสต์กลุ่มสนทนาและทุกคนยินดีที่จะเพิ่ม:
QQ
AI智能自然语言处理: 476464663
Tensorflow智能聊天Bot: 621970965
GitHub深度学习开源交流: 263018023
คุณสามารถเพิ่มเพื่อนของฉันใน WeChat: Jintianiloveu
ลิขสิทธิ์
(c) 2017 Jin Fagang & Tianmu Inc. & weibo_terminator authors LICENSE Apache 2.0