XXL-CRAWLER
XXL-CRAWLER, uma estrutura de rastreador da web distribuída.
-Página inicial-
Introdução
XXL-CRAWLER é uma estrutura de rastreador da web distribuída. Uma linha de código desenvolve um rastreador distribuído. Recursos como "Proxy IP dinâmico, assíncrono e dinâmico, distribuído e de renderização de JavaScript".
XXL-CRAWLER é uma estrutura de rastreador distribuída. Desenvolva um rastreador distribuído com uma linha de código, que possui as características de "proxy dinâmico de IP de múltiplos threading, assíncrono, distribuído, renderização JS" e outros recursos;
Documentação
Características
- 1. Concise: A API é intuitiva e concisa e pode ser iniciada rapidamente;
- 2. Luz: a implementação subjacente apenas se baseia no JSUP, que é simples e eficiente;
- 3. Modular: projeto estrutural modular, fácil de expandir
- 4. Orientado a objetos: suporta o mapeamento fácil dos dados da página para os objetos da Pagevo por meio de anotações, e a camada subjacente conclui automaticamente a extração e o encapsulamento Retorno dos objetos Pagevo; Uma única página suporta extração de um ou mais PageVos.
- 5. Multi-Threading: Execute em um pool de threads para melhorar a eficiência da coleta;
- 6. Suporte distribuído: Distribuído pode ser alcançado estendendo o módulo "Rundata" e combinando dados de execução compartilhados Redis ou DB. O rastreador autônomo local é fornecido por padrão.
- 7. Renderização JS: Ao estender o módulo "Pageloader", ele suporta a aquisição de dados de renderização dinâmica JS. Nativamente, fornece JSUP (renderização não JS, mais rápido), htmlunit (renderização JS), selênio+fantasmas (renderização JS, alta compatibilidade) e outras implementações, apoiando a expansão gratuita de outras implementações.
- 8. Falha na tentativa: tente novamente após a falha da solicitação e suporta definir o número de tempos de repetição;
- 9. IP do agente: Regras de política de aquisição anti-aquisição WAF;
- 10. Proxy dinâmico: suporta ajuste dinâmico de pools de proxy em tempo de execução e personalize políticas de roteamento de pool de proxy;
- 11. Assíncrono: suporta duas maneiras de correr de maneira síncrona e assíncrona;
- 12. Difundir todo o site: suporta difusão e rastejando todo o site a partir do URL existente como ponto de partida;
- 13. Deduplicação: impedir rastreamento repetido;
- 14. URL Lista de permissões: suporta a definição de regras da lista de permissões da página e os URLs de filtragem;
- 15. Informações de solicitação personalizadas, como: parâmetros de solicitação, cookies, cabeçalho, pesquisa de usuário, referenciador, etc.;
- 16. Parâmetros dinâmicos: Suporte o ajuste dinâmico dos parâmetros de solicitação durante o tempo de execução;
- 17. Controle de tempo limite: Suporte definindo o tempo de tempo limite da solicitação de rastreador;
- 18. Pausa ativa: O fio rastreador faz uma pausa ativamente após o processamento da página para evitar ser interceptada com muita frequência;
Comunicação
Contribuindo
As contribuições são bem -vindas! Abra uma solicitação de tração para corrigir um bug ou abrir um problema para discutir um novo recurso ou alterar.
Bem -vindo ao participar da contribuição do projeto! Por exemplo, envie um PR para corrigir um bug ou criar um novo problema para discutir novos recursos ou alterações.
Registro de acesso
Para mais empresas que acessam, registre -se no endereço de registro. O registro é apenas para promoção do produto.
Direitos autorais e licença
Este produto é de código aberto e gratuito e continuará a fornecer suporte técnico da comunidade gratuita. Usuários individuais ou corporativos são gratuitos para acessar e usar.
- Licenciado sob a licença Apache, versão 2.0.
- Copyright (c) 2015-presente, Xuxueli.
O produto é de código aberto e gratuito, e o suporte técnico gratuito da comunidade continuará sendo fornecido. Acesso e uso gratuito em indivíduos ou empresas.
Doar
Não importa quanto a quantia seja suficiente para expressar seu pensamento, muito obrigado :) para doar
Não importa quanto seja a quantidade, basta expressar seus sentimentos. Muito obrigado :) Vá doar