Status do projeto: ainda em desenvolvimento ativo! No entanto, a maior parte já é utilizável. Os testadores alfa são bem -vindos! Estatísticas completas sobre trabalho diário aqui.
Observação : este é o novo repositório oficial do projeto, os antigos repositórios de C ++ e Rust agora estão fechados e não estão mais disponíveis/mantidos. Por favor, use este para qualquer novo desenvolvimento.
O Crowler é um rastreador de web de código aberto e rico em recursos, projetado com uma filosofia única em sua essência: ser o mais gentil e baixo ruído possível. Em outras palavras, o Crowler tenta se destacar, garantindo um impacto mínimo nos sites que ele rasteja, maximizando a conveniência para seus usuários.
Além disso, o sistema está equipado com uma API, fornecendo uma interface simplificada para consultas de dados. Esse recurso garante uma fácil integração e acesso a dados indexados para vários aplicativos.
O Crowler foi projetado para ser baseado em micro-serviços, para que possa ser facilmente implantado em um ambiente de contêiner.
Para obter mais informações sobre os recursos, consulte a página de recursos.
O Crowler foi projetado para resolver um conjunto de problemas sobre rastreamento da web, descoberta de conteúdo, detecção de tecnologia e extração de dados.
Embora seu principal objetivo seja permitir que os usuários privados, profissionais e corporativos desenvolvam rapidamente suas soluções de descoberta de conteúdo, ele também foi projetado para poder rastejar redes e intranets privados, para que você possa usá -lo para criar seu próprio mecanismo de pesquisa ou sua empresa.
Além disso, ele também pode ser usado como "base" para uma ferramenta de segurança cibernética mais complexa, pois pode ser usada para coletar informações sobre um site, sua rede, seus proprietários, vulnerabilidades, que os serviços estão sendo expostos etc.
Dado que também pode extrair informações, ele pode ser usado para criar bases de conhecimento com referência às fontes ou para criar um banco de dados de informações sobre um tópico específico.
Obviamente, ele também pode ser usado para fazer análises de palavras -chave, detecção de idiomas etc. Mas isso é algo para o qual todo rastreador pode ser usado. No entanto, todos os recursos "clássicos" são implementados/sendo implementados.
O : pronunciado como / ðə / Quando antes de um som consoante, parece "qui".
Crow : pronunciado como /kroʊ /, rima com "Know" ou "Snow".
LER : A última parte é pronunciada como /lər /, semelhante ao final da palavra "rastreador" ou a palavra "ler" em "Tumbler".
Juntando tudo, parece " thuh kroh-lər "
"O Crowler não é apenas uma ferramenta; é um compromisso com rastreamento ético, eficiente e eficaz da web. Se você está conduzindo pesquisas acadêmicas, análise de mercado ou aprimorando sua postura de segurança cibernética, o Crowler oferece com integridade e precisão.
Junte -se a nós para redefinir os padrões de rastreamento da web. Explore mais e contribua para a jornada do Crowler em direção a uma exploração digital mais respeitosa e perspicaz ".
? Isso é claramente um pouco exagerado, mas foi divertido e eu decidi incluí -lo aqui, apenas por diversão. BTW, isso me faz cair como eu quero adicionar:
"... e há mais uma coisa!" (Eu me pergunto por quê?!?!)?
O Crowler foi projetado para ser baseado em micro-serviços, então você precisará instalar o seguinte:
Para uma instalação baseada no Docker Compose, é tudo o que você precisa. Se você tiver o Docker e o Docker compostos instalados, poderá pular a próxima seção e ir direto para a seção de instalação .
A maneira mais fácil de instalar o Crowler é usar o arquivo de composição do Docker. Para fazer isso, siga as instruções aqui.
Observe (1) : se você tiver dúvidas sobre o config.yaml ou o env vars, ou o conjunto de regras etc., poderá usar o GPT Chatbot para ajudá -lo. Basta ir a este link aqui (está disponível gratuitamente para todos)
Observe (2) : Se você estiver dirigindo o Crowler em um Raspberry Pi, precisará construir o Crowler para a plataforma arm64 . Para fazer isso, a maneira mais fácil é construir o Crowler com o script docker-build.sh diretamente no Raspberry Pi.
Se, em vez disso, você planeja instalar o Crowler manualmente, você precisará instalar o seguinte contêiner do Docker:
Contêiner PostgreSQL
Observe também: o Crowler precisará de sua imagem VDI para ser construída, então você precisará criar a imagem VDI também.
Se você usar o Docker compor, tudo será construído automaticamente, tudo o que você precisará fazer é seguir as instruções na seção de instalação.
Se, em vez disso, você deseja construir localmente em sua máquina, siga as instruções nesta seção.
Para construir o Crowler a partir da fonte, você precisará instalar o seguinte:
Em seguida, você precisará clonar o repositório e criar os alvos necessários.
Para construir tudo de uma vez, execute o seguinte comando:
./autobuild.shPara construir alvos individuais:
Primeiro, verifique quais metas podem ser construídas e estão disponíveis, execute o seguinte comando:
./autobuild name-of-the-target Isso criará seu componente solicitado em ./bin
./bin/removeSite
./bin/addSite
./bin/addCategory
./bin/api
./bin/thecrowler Construa -os conforme necessário, ou execute o autobuild.sh (sem argumentos) para construir todos eles.
Opcionalmente, você pode construir a imagem do Docker, para executar o seguinte comando:
docker build -t < image name > .Nota : Se você construir o contêiner Crowler Engine Docker, lembre -se de executá -lo com o seguinte comando Docker (é necessário!)
docker run -it --rm --cap-add=NET_ADMIN --cap-add=NET_RAW crowler_engineNOTA IMPORTANTE : Se você construir a partir da fonte, ainda precisará criar uma imagem Crowler VDI Docker, que é necessária porque o Crowler usa várias ferramentas externas para fazer seu trabalho e todas essas ferramentas são agrupadas e embutidas na imagem VDI (imagem virtual da área de trabalho).
Para obter instruções sobre como usá -lo, consulte aqui.
Se você deseja usar o Crowler na produção, recomendo usar a instalação do Docker Compõe. É a maneira mais fácil de instalá -lo e é a mais segura.
Para uma melhor segurança, recomendo fortemente implantar a API em um contêiner separado do que o Crowler One. Além disso, não há necessidade de expor o contêiner Crowler ao mundo exterior, ele precisará de pensamento de acesso à Internet.
A configuração padrão do Crowler usa o PostgreSQL como seu banco de dados. O banco de dados é armazenado em um volume do Docker e é persistente.
O banco de dados não deve precisar de manutenção, o Crowler cuidará disso. Sempre que não há atividade de rastreamento e passou 1 horas da atividade de manutenção anterior, o Crowler limpará o banco de dados e otimizará os índices.
O Crowler está licenciado sob a licença Apache 2.0. Para mais informações, consulte o arquivo de licença.
Se você deseja contribuir com o projeto, leia o arquivo contribuinte.
O Crowler adotou o Código de Conduta do Covenant Colaborador. Para obter mais informações, consulte o arquivo code_of_conduct.
O Crowler está construído sobre muitos projetos de código aberto, e quero agradecer a todos os desenvolvedores que contribuíram para esses projetos. Sem eles, o Crowler não seria possível.
Além disso, quero agradecer às pessoas que estão me ajudando com o projeto, contribuindo com o código, testando -o ou fornecendo feedback. Obrigado a todos!
O Crowler é uma ferramenta projetada para ajudá -lo a rastejar sites de uma maneira respeitosa. No entanto, cabe a você usá -lo de uma maneira respeitosa. O Crowler não é responsável por qualquer uso indevido da ferramenta.