Weibo Terminator Arbeitsfluss
Dieses Projekt ist die neu gesteuerte Version des vorherigen Projekts. Hier ist die vorherige Projektadresse, das Projekt bleibt aktualisiert. Dies ist die Arbeitsversion von Weibo Terminator. Diese Version hat einige Optimierungen für die vorherige Version vorgenommen. Das ultimative Ziel hier ist es, Corpus zusammenzukriechen, einschließlich Stimmungsanalyse, Dialogkorpus, Risikokontrolle für öffentliche Meinungen, Big -Data -Analyse und anderen Anwendungen.
Update 2017-5-16
erneuern:
- Eingestellt die erste Cookies -Akquisitionslogik, und wenn das Programm keine Cookies erkennt, wird es beendet, wodurch das Kriechen von mehr Inhalten und Absturz verhindert wird.
- Die Weiboscraperm -Klasse wurde hinzugefügt, die noch im Bau befindet. Die Implementierung von PR -Subjekte ist willkommen. Diese Klasse implementiert hauptsächlich das Kriechen aus einem anderen Weibo -Domain -Namen, dh dem mobilen Domain -Namen;
Sie können das Update ziehen.
Update 2017-5-15
Nach einigen geringfügigen Modifikationen und der PR mehreren Mitwirkenden hat der Code einige geringfügige Änderungen erfahren. Grundsätzlich repariert es Fehler und verbessert einige Logik, und die Modifikationen sind wie folgt:
- Das Problem des Speichernsfehlers behoben. Wenn Sie beim ersten Mal den Kloncode ziehen müssen;
- Der Fehler in Bezug auf
WeiboScraper has not attribute weibo_content , der neue Code wurde behoben.
@Fence Senden Sie PR, um Inhalte zu ändern:
- Die ursprüngliche feste 30er -Pause wird durch zufällige Zeit ersetzt, und die spezifischen Parameter können von Ihnen selbst definiert werden.
- Fügte Big_v_ids_file hinzu, um die Promi -IDs aufzuzeichnen, die für Fans gerettet wurden. Verwenden Sie das TXT -Format, um den Beitrag zu manuell hinzuzufügen und zu löschen
- Die Krabbeln beider Funktionen wurden auf Seite+1 geändert, um wiederholtes Kriechen zu vermeiden, wenn der Haltepunkt weiter kriecht.
- Ändern Sie das ursprüngliche "All Weibo und Kommentare, nachdem Sie eine ID gekriecht haben", um zu "speichern, nachdem Sie einen Tweet gekriecht haben, und Kommentare, nachdem Sie einen Tweet gekrabbt haben" "
- (Optional) Setzen Sie den Teil ein, der die Datei als Funktion separat speichert, da es 2 bzw. 3 Plätze gibt, die sie speichern können.
Sie können git pull origin master um die neu aktualisierte Version zu erhalten. Gleichzeitig können Sie mich weiterhin weiter nach Uuid fragen. Ich werde die Liste regelmäßig in contirbutor.txt veröffentlichen. Ich habe kürzlich Datenverführungsarbeiten sowie Datenreinigung, Klassifizierung usw. durchgeführt. Nach Abschluss der Zusammenführungsarbeiten werde ich den Big Data -Satz an alle verteilen.
Verbessern
Die folgenden Verbesserungen wurden an der vorherigen Version vorgenommen:
- Gehen Sie ohne zu viele Ablenkungen direkt zum Thema, geben Sie der ID, holen Sie sich alle Weibo, Anzahl von Weibo, Anzahl der Fans, alle Weibo -Inhalte und kommentieren Inhalt des Benutzers.
- Im Gegensatz zur vorherigen Version besteht diesmal unsere Philosophie darin, alle Daten in drei Pickle -Dateien zu speichern und in Wörterbuchdateien zu speichern. Der Zweck davon ist, das Krabbeln des Haltepunkts zu erleichtern.
- Gleichzeitig kriecht der Kriechler, der gekrabbt hat, nicht wieder, was bedeutet, dass der Crawler an den gekrabbten Ausweis erinnert. Nachdem jede ID den gesamten Inhalt erhalten hat, wird sie als krabbelt gekennzeichnet.
- Darüber hinaus werden die Kommentare von Weibo und Weibo getrennt getrennt. Während des Krabbelns von Weibo -Inhalten besteht eine Unterbrechung. Das zweite Mal wird es nicht erneut gekrabbt, und die unterbrochene Seitennummer kriecht weiterhin von der unterbrochenen Seitennummer.
- Wichtiger ist! ! ! Jeder ID -Crawl hat keinen Einfluss aufeinander. Sie können alle ID -Inhalte der gewünschten ID in der Gurkendatei direkt abrufen, und Sie können jede Verarbeitung durchführen! !
- Darüber hinaus wurde die neue Anti-Crawl-Strategie getestet, und der angewandte Verzögerungsmechanismus konnte gut funktionieren, aber es war nicht völlig unkontrolliert.
Wichtiger ist! ! ! In dieser Version wurde die Intelligenz des Crawlers erheblich verbessert. Wenn Crawler jede ID kriecht, erhält er automatisch alle Lüfter -IDs der ID! ! Es entspricht dem, was ich Ihnen gebe ist Saatgut -ID, und die Saatgut -IDs sind die IDs einiger Prominenten, Unternehmen oder Medien Big Vs. Von diesen Samen -IDs können Sie Tausende anderer Samen -IDs erhalten! ! Wenn ein Promi -Fan 34.000 hat, können Sie zum ersten Mal 34.000 IDs erhalten und dann weiter von der Kinder -ID kriechen. Jede Kinder -ID hat 100 Fans, und beim zweiten Mal erhalten Sie 3,4 Millionen IDs! ! ! Ist es genug? ! ! ! Natürlich nicht genug! ! !
Unser Projekt wird niemals aufhören! ! ! Es wird fortgesetzt, bis genügend Korpus geerntet wird! ! !
(Natürlich können wir nicht alle Fans bekommen, aber das reicht aus.)
Arbeitsfluss
Das Ziel dieser Version ist es, den Mitwirkenden anzusprechen, und unser Workflow ist auch sehr einfach:
- Holen Sie sich Uuid. Dieser UUID kann 2-3 IDs von Distribution_ids.pkl aufrufen. Dies ist unsere Samen -ID. Natürlich können Sie auch alle IDs direkt erhalten. Um doppelte Arbeiten zu verhindern, wird empfohlen, dass Sie eine UUID von mir beantragen. Sie sind nur für Ihre verantwortlich. Nach dem Krabbeln werden Sie mir die endgültige Datei zurücksetzen. Nachdem ich die schwere Ladung ausgesucht habe, werde ich den letzten großen Korpus an alle verteilen.
- Rennen Sie
python3 main.py uuid , lassen Sie mich hier erklären, dass die Crawling -Fan -ID abgerufen wird, nachdem die von UUID angegebene ID gekrabbelt wurde. - Erledigt!
Diskutieren
Ich poste immer noch eine Diskussionsgruppe, und jeder ist herzlich eingeladen zu erweitern:
QQ
AI智能自然语言处理: 476464663
Tensorflow智能聊天Bot: 621970965
GitHub深度学习开源交流: 263018023
Sie können meine Freunde auf Wechat: Jintianiloveu hinzufügen
Copyright
(c) 2017 Jin Fagang & Tianmu Inc. & weibo_terminator authors LICENSE Apache 2.0