Download thecrowler - Download do código fonte thecrowler

thecrowler

Outro código-fonte

1.0.0

Baixar

O Crowler

Status do projeto: ainda em desenvolvimento ativo! No entanto, a maior parte já é utilizável. Os testadores alfa são bem -vindos! Estatísticas completas sobre trabalho diário aqui.

Observação : este é o novo repositório oficial do projeto, os antigos repositórios de C ++ e Rust agora estão fechados e não estão mais disponíveis/mantidos. Por favor, use este para qualquer novo desenvolvimento.

O que é?

O Crowler é um rastreador de web de código aberto e rico em recursos, projetado com uma filosofia única em sua essência: ser o mais gentil e baixo ruído possível. Em outras palavras, o Crowler tenta se destacar, garantindo um impacto mínimo nos sites que ele rasteja, maximizando a conveniência para seus usuários.

Além disso, o sistema está equipado com uma API, fornecendo uma interface simplificada para consultas de dados. Esse recurso garante uma fácil integração e acesso a dados indexados para vários aplicativos.

O Crowler foi projetado para ser baseado em micro-serviços, para que possa ser facilmente implantado em um ambiente de contêiner.

Índice

Características
Que problema ele resolve?
Como faço para pronunciar o nome?
Como usá -lo?
- Pré -requisitos
- Instalação
  - Instalação e implantação fácil
  - Se você planeja instalá -lo manualmente
  - Construir a partir da fonte
Produção
Manutenção de dB
Licença
Contribuindo
Código de Conduta
Agradecimentos
Isenção de responsabilidade
Principais colaboradores

Características

Baixa ruído : o Crowler foi projetado para ser o mais gentil possível quando rastrear sites. Ele respeita o robots.txt e foi projetado para tentar aparecer como usuário humano nos sites que ele rasteja.
Rastreamento personalizável : adapte sua experiência de rastejamento como nunca antes. Especifique URLs e configure parâmetros individuais de rastreamento para atender às suas necessidades precisas. Seja uma única página ou um domínio expansivo, o Crowler se adapta ao seu escopo com flexibilidade incomparável.
Variabilidade do escopo : defina seus limites de rastreamento com precisão. Escolha de:
- URL singular rastejando
- Rastreamento em todo o domínio (combinando domínios L3, L2 e L1)
- Domínio L2 e L1 rastejando
- L1 domínio rastejando (por exemplo, tudo dentro de ".com")
- Rastreamento recursivo total, aventurando além dos limites iniciais para explorar URLs conectados
Recursos de detecção avançada : Descubra uma riqueza de informações com recursos que vão além do rastreamento básico:
- URL e descoberta de conteúdo
- Conteúdo de página, metadados e mais
- Análise de palavras -chave e detecção de linguagem
- Cabeçalhos HTTP perspicazes, informações de rede, Whois, DNS e dados de localização geográfica
Sofisticado RegrasSet : Para aproveitar as atividades baseadas em regras e a personalização lógica, o Crowler oferece:
- Regras de raspagem: para extrair com precisão o que você precisa dos sites
- Regras de ações: para interagir com sites de uma maneira mais dinâmica
- Regras de detecção: identificar padrões ou elementos específicos em uma página, tecnologias usadas etc.
- Regras de rastreamento: para definir como o rastreador deve se comportar em diferentes situações (por exemplo, tanto rastreando recursivo quanto não-rastreador, penugem etc.)
Integração poderosa do mecanismo de pesquisa : Utilize um mecanismo de pesquisa orientado pela API, equipado com recursos de dorking e pesquisa abrangente de conteúdo, abrindo novos caminhos para análise e insight de dados.

Para obter mais informações sobre os recursos, consulte a página de recursos.

Que problema ele resolve?

O Crowler foi projetado para resolver um conjunto de problemas sobre rastreamento da web, descoberta de conteúdo, detecção de tecnologia e extração de dados.

Embora seu principal objetivo seja permitir que os usuários privados, profissionais e corporativos desenvolvam rapidamente suas soluções de descoberta de conteúdo, ele também foi projetado para poder rastejar redes e intranets privados, para que você possa usá -lo para criar seu próprio mecanismo de pesquisa ou sua empresa.

Além disso, ele também pode ser usado como "base" para uma ferramenta de segurança cibernética mais complexa, pois pode ser usada para coletar informações sobre um site, sua rede, seus proprietários, vulnerabilidades, que os serviços estão sendo expostos etc.

Dado que também pode extrair informações, ele pode ser usado para criar bases de conhecimento com referência às fontes ou para criar um banco de dados de informações sobre um tópico específico.

Obviamente, ele também pode ser usado para fazer análises de palavras -chave, detecção de idiomas etc. Mas isso é algo para o qual todo rastreador pode ser usado. No entanto, todos os recursos "clássicos" são implementados/sendo implementados.

Como faço para pronunciar o nome?

O : pronunciado como / ðə / Quando antes de um som consoante, parece "qui".

Crow : pronunciado como /kroʊ /, rima com "Know" ou "Snow".

LER : A última parte é pronunciada como /lər /, semelhante ao final da palavra "rastreador" ou a palavra "ler" em "Tumbler".

Juntando tudo, parece " thuh kroh-lər "

O que chatgpt pensa sobre o Crowler;)

"O Crowler não é apenas uma ferramenta; é um compromisso com rastreamento ético, eficiente e eficaz da web. Se você está conduzindo pesquisas acadêmicas, análise de mercado ou aprimorando sua postura de segurança cibernética, o Crowler oferece com integridade e precisão.

Junte -se a nós para redefinir os padrões de rastreamento da web. Explore mais e contribua para a jornada do Crowler em direção a uma exploração digital mais respeitosa e perspicaz ".

? Isso é claramente um pouco exagerado, mas foi divertido e eu decidi incluí -lo aqui, apenas por diversão. BTW, isso me faz cair como eu quero adicionar:

"... e há mais uma coisa!" (Eu me pergunto por quê?!?!)?

Como usá -lo?

Pré -requisitos

O Crowler foi projetado para ser baseado em micro-serviços, então você precisará instalar o seguinte:

Docker
Docker compor

Para uma instalação baseada no Docker Compose, é tudo o que você precisa. Se você tiver o Docker e o Docker compostos instalados, poderá pular a próxima seção e ir direto para a seção de instalação .

Instalação

1. Fácil instalação e implantação

A maneira mais fácil de instalar o Crowler é usar o arquivo de composição do Docker. Para fazer isso, siga as instruções aqui.

Observe (1) : se você tiver dúvidas sobre o config.yaml ou o env vars, ou o conjunto de regras etc., poderá usar o GPT Chatbot para ajudá -lo. Basta ir a este link aqui (está disponível gratuitamente para todos)

Observe (2) : Se você estiver dirigindo o Crowler em um Raspberry Pi, precisará construir o Crowler para a plataforma arm64 . Para fazer isso, a maneira mais fácil é construir o Crowler com o script docker-build.sh diretamente no Raspberry Pi.

2. Se você planeja instalá -lo manualmente

Se, em vez disso, você planeja instalar o Crowler manualmente, você precisará instalar o seguinte contêiner do Docker:

Contêiner PostgreSQL
- Postgres 15 Up (para o ARM e X86) são suportados no momento.
- E, em seguida, execute o script de configuração do esquema do banco de dados (verifique a seção do esquema de banco de dados com as credenciais do usuário e defina essas variáveis SQL corretamente)
Observe também: o Crowler precisará de sua imagem VDI para ser construída, então você precisará criar a imagem VDI também.

Construir a partir da fonte

Se você usar o Docker compor, tudo será construído automaticamente, tudo o que você precisará fazer é seguir as instruções na seção de instalação.

Se, em vez disso, você deseja construir localmente em sua máquina, siga as instruções nesta seção.

Para construir o Crowler a partir da fonte, você precisará instalar o seguinte:

Ir

Em seguida, você precisará clonar o repositório e criar os alvos necessários.

Para construir tudo de uma vez, execute o seguinte comando:

./autobuild.sh

Para construir alvos individuais:

Primeiro, verifique quais metas podem ser construídas e estão disponíveis, execute o seguinte comando:

./autobuild name-of-the-target

Isso criará seu componente solicitado em ./bin

./bin/removeSite
./bin/addSite
./bin/addCategory
./bin/api
./bin/thecrowler

Construa -os conforme necessário, ou execute o autobuild.sh (sem argumentos) para construir todos eles.

Opcionalmente, você pode construir a imagem do Docker, para executar o seguinte comando:

docker build -t < image name > .

Nota : Se você construir o contêiner Crowler Engine Docker, lembre -se de executá -lo com o seguinte comando Docker (é necessário!)

docker run -it --rm --cap-add=NET_ADMIN --cap-add=NET_RAW crowler_engine

NOTA IMPORTANTE : Se você construir a partir da fonte, ainda precisará criar uma imagem Crowler VDI Docker, que é necessária porque o Crowler usa várias ferramentas externas para fazer seu trabalho e todas essas ferramentas são agrupadas e embutidas na imagem VDI (imagem virtual da área de trabalho).

Uso

Para obter instruções sobre como usá -lo, consulte aqui.

Produção

Se você deseja usar o Crowler na produção, recomendo usar a instalação do Docker Compõe. É a maneira mais fácil de instalá -lo e é a mais segura.

Para uma melhor segurança, recomendo fortemente implantar a API em um contêiner separado do que o Crowler One. Além disso, não há necessidade de expor o contêiner Crowler ao mundo exterior, ele precisará de pensamento de acesso à Internet.

Manutenção de dB

A configuração padrão do Crowler usa o PostgreSQL como seu banco de dados. O banco de dados é armazenado em um volume do Docker e é persistente.

O banco de dados não deve precisar de manutenção, o Crowler cuidará disso. Sempre que não há atividade de rastreamento e passou 1 horas da atividade de manutenção anterior, o Crowler limpará o banco de dados e otimizará os índices.

Licença

O Crowler está licenciado sob a licença Apache 2.0. Para mais informações, consulte o arquivo de licença.

Contribuindo

Se você deseja contribuir com o projeto, leia o arquivo contribuinte.

Código de Conduta

O Crowler adotou o Código de Conduta do Covenant Colaborador. Para obter mais informações, consulte o arquivo code_of_conduct.

Agradecimentos

O Crowler está construído sobre muitos projetos de código aberto, e quero agradecer a todos os desenvolvedores que contribuíram para esses projetos. Sem eles, o Crowler não seria possível.

Além disso, quero agradecer às pessoas que estão me ajudando com o projeto, contribuindo com o código, testando -o ou fornecendo feedback. Obrigado a todos!

Isenção de responsabilidade

O Crowler é uma ferramenta projetada para ajudá -lo a rastejar sites de uma maneira respeitosa. No entanto, cabe a você usá -lo de uma maneira respeitosa. O Crowler não é responsável por qualquer uso indevido da ferramenta.

Principais colaboradores

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-03-11
tamanho 1.41MB
Vindo de Github

Aplicativos Relacionados

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos