XXL-Crawler
XXL-Crawler, ein verteiltes Web-Crawler-Framework.
-Homepage-
Einführung
XXL-Crawler ist ein verteiltes Web-Crawler-Framework. Eine Codezeile entwickelt einen verteilten Crawler. Funktionen wie "Multithread, asynchron, dynamisches IP-Proxy, verteilt, JavaScript-Rendering".
XXL-Crawler ist ein verteiltes Crawler-Framework. Entwickeln Sie einen verteilten Crawler mit einer Codezeile, die die Eigenschaften von "Multi-Threading, Asynchron, IP-Dynamikproxy, Distributed, JS Rendering" und anderen Funktionen aufweist.
Dokumentation
- Chinesische Dokumentation
Merkmale
- 1. präzise: Die API ist intuitiv und prägnant und kann schnell gestartet werden;
- 2. Leichtes Gewicht: Die zugrunde liegende Implementierung basiert nur auf JSOUP, was einfach und effizient ist;
- 3.. Modular: Modulares strukturelles Design, leicht zu erweitern
- 4. Objektorientiert: Unterstützt die einfache Zuordnung von Seitendaten auf SeiteVO-Objekte durch Annotationen, und die zugrunde liegende Ebene vervollständigt automatisch die Datenextraktion und die Rückgabe von Seitevo-Objekten. Eine einzelne Seite unterstützt die Extraktion eines oder mehrerer Seite.
- 5. Multi-Threading: Laufen in einem Thread-Pool, um die Sammlungseffizienz zu verbessern;
- 6. Distributed Support: Distributed kann durch Erweiterung des "Rundata" -Moduls und Kombination von Redis- oder DB -Shared -Laufen -Daten erreicht werden. Der Stand-Alone-Crawler von LocalRundata wird standardmäßig bereitgestellt.
- 7. JS Rendering: Durch Erweiterung des "Pageloader" -Moduls unterstützt es die Erfassung von JS Dynamic Rendering -Daten. Nativ bietet es JSOUP (Nicht-JS-Rendering, schneller), HTMLunit (JS-Rendering), Selenium+Phantomjs (JS-Rendering, hohe Kompatibilität) und andere Implementierungen und unterstützt die freie Erweiterung anderer Implementierungen.
- 8. Fehlgeschlagener Wiederholung: Wiederholung nach dem Fehlschlag der Anforderung und unterstützt die Festlegung der Anzahl der Wiederholungszeiten.
- 9. Agent IP: Anti-Akquisitionsrichtlinienregeln WAF;
- 10. Dynamischer Proxy: Unterstützt die dynamische Anpassung der Proxy -Pools zur Laufzeit und passen Sie die Richtlinien zur Routing von Proxy -Pool an.
- 11. Asynchron: Unterstützt zwei Arten, synchron und asynchron zu laufen;
- 12. Diffuse der gesamten Stelle: Diffusion und Krabbeln der gesamten Stelle von der vorhandenen URL als Ausgangspunkt;
- 13. Deduplizierung: Wiederholtes Kriechen verhindern;
- 14. URL Whitelist: Unterstützt die Einstellung der Seite Whitelist -Regeln und Filter von URLs;
- 15. Benutzerdefinierte Anfrageinformationen wie: Anforderungsparameter, Cookies, Header, Benutzeragentenabfragen, Empfehler usw.;
- 16. Dynamische Parameter: Unterstützung der dynamischen Einstellung von Anforderungsparametern während der Laufzeit;
- 17. Timeout Control: Unterstützung der Zeitlimitzeit der Crawler -Anfrage;
- 18. Active Pause: Der Crawler -Thread macht nach der Verarbeitung der Seite aktiv pausiert, um zu vermeiden, dass zu häufig abgefangen wird.
Kommunikation
Beitragen
Beiträge sind willkommen! Öffnen Sie eine Pull -Anfrage, um einen Fehler zu beheben, oder öffnen Sie ein Problem, um eine neue Funktion oder Änderung zu besprechen.
Willkommen, um am Projektbeitrag teilzunehmen! Senden Sie beispielsweise eine PR ein, um einen Fehler zu beheben, oder erstellen Sie ein neues Problem, um neue Funktionen oder Änderungen zu besprechen.
Zugangsregistrierung
Weitere Unternehmen, die zugreifen, registrieren Sie sich bitte an der Registrierungsadresse. Die Registrierung dient nur zur Produktförderung.
Urheberrecht und Lizenz
Dieses Produkt ist Open Source und KOSTENLOS und bietet weiterhin kostenlose technische Unterstützung für die Community. Einzelne oder Unternehmensbenutzer können frei zugreifen und verwenden.
- Lizenziert unter der Apache -Lizenz, Version 2.0.
- Copyright (C) 2015-Präsentation, Xuxueli.
Das Produkt ist Open Source und Free, und der kostenlose technische Unterstützung für die Community wird weiterhin bereitgestellt. Freier Zugang und Verwendung innerhalb von Einzelpersonen oder Unternehmen.
Spenden
Egal wie viel der Betrag ausreicht, um Ihren Gedanken auszudrücken, vielen Dank :), um zu spenden
Egal wie viel die Menge ist, es reicht aus, Ihre Gefühle auszudrücken. Vielen Dank :) Geh, um zu spenden