Xxl-frawler
XXL-CRAWLER, un framework Distributed Web Crawler.
- page d'accueil -
Introduction
XXL-CRAWLER est un framework Distributed Web Crawler. Une ligne de code développe un robot distribué. Des fonctionnalités telles que «proxy IP dynamique multithread, asynchrone, réparti, distribué JavaScript».
XXL-CRAWLER est un framework Distributed Crawler. Développez un robot de code distribué avec une ligne de code, qui a les caractéristiques de "proxy dynamique IP multi-threading, asynchrone, IP, distribué, rendu JS" et d'autres fonctionnalités;
Documentation
Caractéristiques
- 1. Concis: L'API est intuitive et concise, et peut être rapidement démarrée;
- 2. Léger: l'implémentation sous-jacente repose uniquement sur JSoup, qui est simple et efficace;
- 3. Modulaire: conception structurelle modulaire, facile à développer
- 4. Orienté objet: prend en charge le mappage facile des données de page vers les objets Pagevo via des annotations, et la couche sous-jacente complète automatiquement l'extraction des données et le retour d'encapsulation des objets Pagevo; Une seule page prend en charge l'extraction d'un ou plusieurs pages.
- 5. Multi-threading: exécutez dans un pool de threads pour améliorer l'efficacité de la collecte;
- 6. Support distribué: distribué peut être réalisé en étendant le module "runData" et en combinant des données d'exécution de redis ou de DB. LocalRundata Crawler autonome est fourni par défaut.
- 7. Rendu JS: En étendant le module "Pageloader", il prend en charge l'acquisition de données de rendu dynamique JS. Native, il fournit JSoup (rendu non JS, plus rapide), HTMLUNIT (rendu JS), Selenium + PhantomJS (rendu JS, compatibilité élevée) et d'autres implémentations, soutenant l'expansion gratuite d'autres implémentations.
- 8. Échec de la réessayer: Réessayez après l'échec de la demande et prend en charge la définition du nombre de temps de réception;
- 9. Agent IP: Règles de la politique anti-acquisition WAF;
- 10. Proxy dynamique: prend en charge l'ajustement dynamique des pools de proxy à l'exécution et personnaliser les politiques de routage de pool de proxy;
- 11. Asynchrone: prend en charge deux façons de fonctionner de manière synchrone et asynchrone;
- 12. Diffusion de l'ensemble du site: Soutenez la diffusion et rampant l'ensemble du site à partir de l'URL existante comme point de départ;
- 13. Déduplication: empêcher la rampe répétée;
- 14. Liste blanche de l'URL: prend en charge la définition des règles de liste blanche et des URL de filtrage;
- 15. Informations sur la demande personnalisée, telles que: Paramètres de demande, cookies, en-tête, interrogation UserAgent, références, etc.;
- 16. Paramètres dynamiques: support Réglage dynamique des paramètres de demande pendant l'exécution;
- 17. Contrôle du délai d'expiration: Prise en charge de la définition du temps mort de la demande du robot;
- 18. Pause active: le fil du robot s'arrête activement après le traitement de la page pour éviter d'être intercepté trop fréquemment;
Communication
- Communication communautaire
Contributif
Les contributions sont les bienvenues! Ouvrez une demande de traction pour corriger un bogue, ou ouvrez un problème pour discuter d'une nouvelle fonctionnalité ou modifier.
Bienvenue pour participer à la contribution du projet! Par exemple, soumettez un PR pour corriger un bogue ou créez un nouveau problème pour discuter de nouvelles fonctionnalités ou modifications.
Inscription d'accès
Pour plus d'entreprises qui accèdent, veuillez vous inscrire à l'adresse d'inscription. L'inscription est uniquement pour la promotion des produits.
Copyright et licence
Ce produit est open source et gratuit, et continuera à fournir un support technique communautaire gratuit. Les utilisateurs individuels ou en entreprise sont gratuits pour accéder et utiliser.
- Licencié sous la licence Apache, version 2.0.
- Copyright (C) 2015-présent, Xuxueli.
Le produit est open source et gratuit, et le soutien technique communautaire gratuit continuera d'être fourni. Accès et utilisation gratuits au sein des particuliers ou des entreprises.
Faire un don
Peu importe le montant suffisant pour exprimer votre pensée, merci beaucoup :) pour faire un don
Peu importe le montant, il suffit d'exprimer vos sentiments. Merci beaucoup :) allez faire un don