Rastreador xxl
XXL-Crawler, un marco de rastreadores web distribuido.
-Página de inicio-
Introducción
XXL-Crawler es un marco de rastreadores web distribuido. Una línea de código desarrolla un rastreador distribuido. Características como "proxy IP multiproceso, asíncrono, dinámico, distribuido, renderizado de JavaScript".
XXL-Crawler es un marco de rastreadores distribuido. Desarrolle un rastreador distribuido con una línea de código, que tiene las características de "proxy dinámico asíncrono, asincrónico, distribuidos, renderizado JS" y otras características;
Documentación
Características
- 1. Conciso: la API es intuitiva y concisa, y se puede comenzar rápidamente;
- 2. Ligero: la implementación subyacente solo se basa en JSOUP, que es simple y eficiente;
- 3. Modular: diseño estructural modular, fácil de expandir
- 4. Orientado a objetos: admite una mapeo fácil de los datos de la página a los objetos de Pagevo a través de anotaciones, y la capa subyacente completa automáticamente la extracción de datos y la retorno de encapsulación de los objetos Pagevo; Una sola página admite la extracción de uno o más PageVos.
- 5. Multi-subprocesos: ejecute en un grupo de subprocesos para mejorar la eficiencia de la recolección;
- 6. Soporte distribuido: se puede lograr distribuido extendiendo el módulo "RunData" y combinando datos de ejecución compartidos de Redis o DB. Localrundata Stand-Etalone Crawler se proporciona de forma predeterminada.
- 7. Renderización JS: al extender el módulo "Pageloader", admite la adquisición de datos de representación dinámica JS. Nativamente, proporciona JSOUP (Renderización no JS, más rápido), HTMLUNIT (Renderización JS), Selenium+PhantomJS (Renderización JS, alta compatibilidad) y otras implementaciones, lo que respalda la expansión gratuita de otras implementaciones.
- 8. Vuelva a intentarlo: Vuelva a intentar después de que falla la solicitud y admite establecer el número de tiempos de reintento;
- 9. Agente IP: Reglas de política anti-adquisición WAF;
- 10. Proxy dinámico: admite el ajuste dinámico de los grupos proxy en tiempo de ejecución y personaliza las políticas de enrutamiento de grupos proxy;
- 11. Asíncrono: admite dos formas de correr sincrónicamente y asincrónicamente;
- 12. Difusión de todo el sitio: soporte de difusión y rastreando todo el sitio de la URL existente como punto de partida;
- 13. Deduplicación: prevenir el rastreo repetido;
- 14. URL Whitelist: admite la configuración de las reglas de la lista blanca de la página y las URL de filtrado;
- 15. Información de solicitud personalizada, como: parámetros de solicitud, cookies, encabezado, encuesta de usuario, referente, etc.;
- 16. Parámetros dinámicos: admite ajuste dinámico de los parámetros de solicitud durante el tiempo de ejecución;
- 17. Control de tiempo de espera: admite la configuración del tiempo de espera de la solicitud de rastreadores;
- 18. Pausa activa: el hilo del rastreador se detiene activamente después de procesar la página para evitar ser interceptado con demasiada frecuencia;
Comunicación
Que contribuye
¡Las contribuciones son bienvenidas! Abra una solicitud de extracción para solucionar un error o abra un problema para discutir una nueva característica o cambio.
¡Bienvenido a participar en la contribución del proyecto! Por ejemplo, envíe un PR para solucionar un error o crear un nuevo problema para discutir nuevas características o cambios.
Registro de acceso
Para más empresas que accedan, regístrese en la dirección de registro. El registro es solo para la promoción del producto.
Derechos de autor y licencia
Este producto es de código abierto y gratuito, y continuará brindando soporte técnico comunitario gratuito. Los usuarios individuales o empresariales son gratuitos para acceder y usar.
- Con licencia bajo la licencia Apache, versión 2.0.
- Copyright (c) 2015-presente, xuxueli.
El producto es de código abierto y gratuito, y se continuará proporcionando soporte técnico comunitario gratuito. Acceso y uso gratuitos dentro de individuos o empresas.
Donar
No importa cuánto sea suficiente para expresar su pensamiento, muchas gracias :) para donar
No importa cuánto sea la cantidad, es suficiente para expresar sus sentimientos. Muchas gracias :) Ve a donar