Estado del proyecto: ¡todavía bajo desarrollo activo! Sin embargo, la mayor parte ya es utilizable. ¡Bienvenido a los probadores alfa! Estadísticas completas sobre el trabajo diario aquí.
Tenga en cuenta : este es el nuevo repositorio oficial para el proyecto, los antiguos repositorios de C ++ y Rust ahora están cerrados y ya no están disponibles/mantenidos. Utilice este para cualquier desarrollo nuevo.
El Crowler es un rastreador web de código abierto, rico en funciones, diseñado con una filosofía única en su núcleo: ser lo más gentil y de bajo ruido posible. En otras palabras, el Crowler intenta destacarse al garantizar un impacto mínimo en los sitios web que se arrastra mientras maximiza la conveniencia para sus usuarios.
Además, el sistema está equipado con una API, que proporciona una interfaz optimizada para consultas de datos. Esta característica garantiza una fácil integración y acceso a datos indexados para varias aplicaciones.
El Crowler está diseñado para estar basado en micro-servicios, por lo que se puede implementar fácilmente en un entorno contenedorizado.
Para obtener más información sobre las características, consulte la página de características.
El Crowler está diseñado para resolver un conjunto de problemas sobre el rastreo web, el descubrimiento de contenido, la detección de tecnología y la extracción de datos.
Si bien su objetivo principal es permitir a los usuarios privados, profesionales y empresariales desarrollar rápidamente sus soluciones de descubrimiento de contenido, también está diseñado para poder rastrear redes e intranets privadas, para que pueda usarlo para crear su propio motor de búsqueda o su empresa.
Además de eso, también se puede utilizar como "base" para una herramienta de seguridad cibernética más compleja, ya que puede usarse para recopilar información sobre un sitio web, su red, sus propietarios, vulnerabilidades, qué servicios están siendo expuestos, etc.
Dado que también puede extraer información, se puede utilizar para crear bases de conocimiento con referencia a las fuentes o para crear una base de datos de información sobre un tema específico.
Obviamente, también se puede usar para hacer análisis de palabras clave, detección de idiomas, etc. Pero esto es algo para lo que se puede usar cada rastreador. Sin embargo, se implementan/se implementan todas las características "clásicas".
El : pronunciado como / ðə / cuando antes de un sonido consonante, suena como "thuh".
Crow : pronunciado como /kroʊ /, rima con "saber" o "nieve".
ler : la última parte se pronuncia como /lər /, similar al final de la palabra "rastreador" o la palabra "ler" en "tumbler".
Poniendo todo junto, suena como " thuh kroh-lər "
"El Crowler no es solo una herramienta; es un compromiso con el rastreo web ético, eficiente y efectivo. Ya sea que esté realizando investigaciones académicas, análisis de mercado o mejorando su postura de ciberseguridad, el Crowler ofrece integridad y precisión.
Únase a nosotros para redefinir los estándares del rastreo web. Explore más y contribuya al viaje de Crowler hacia una exploración digital más respetuosa y perspicaz ".
? Eso es claramente un poco exagerado, pero fue divertido y decidí incluirlo aquí, solo por diversión. Por cierto, me hace caer como quisiera agregar:
"... ¡y hay una cosa más!" (¿Me pregunto por qué?!?!)?
El Crowler está diseñado para estar basado en micro-servicios, por lo que deberá instalar lo siguiente:
Para una instalación basada en Docker Compose, eso es todo lo que necesita. Si tiene instalado Docker y Docker, puede omitir la siguiente sección y ir directamente a la sección de instalación .
La forma más fácil de instalar Crowler es usar el archivo Docker Compose. Para hacerlo, siga las instrucciones aquí.
Tenga en cuenta que (1) : si tiene preguntas sobre config.yaml o los vars env, o el conjunto de reglas, etc., puede usar el chatbot GPT para ayudarlo. Simplemente vaya a este enlace aquí (está disponible gratuitamente para todos)
Tenga en cuenta (2) : si está ejecutando el Crowler en una Raspberry Pi, deberá construir el Crowler para la plataforma arm64 . Para hacerlo, la forma más fácil es construir el Crowler con el guión docker-build.sh directamente en Raspberry Pi.
Si, en cambio, planea instalar el Crowler manualmente, deberá instalar el siguiente contenedor Docker:
Contenedor postgresql
También tenga en cuenta: el Crowler necesitará su imagen VDI para construir, por lo que también deberá construir la imagen VDI.
Si usa la composición de Docker, todo se construirá automáticamente, todo lo que deberá hacer es seguir las instrucciones en la sección de instalación.
Si, en su lugar, desea construir localmente en su máquina, siga las instrucciones en esta sección.
Para construir el Crowler desde la fuente, deberá instalar lo siguiente:
Luego necesitará clonar el repositorio y crear los objetivos que necesita.
Para construir todo a la vez, ejecute el siguiente comando:
./autobuild.shPara construir objetivos individuales:
Primero, verifique qué objetivos se pueden construir y están disponibles, ejecute el siguiente comando:
./autobuild name-of-the-target Esto creará su componente solicitado en ./bin
./bin/removeSite
./bin/addSite
./bin/addCategory
./bin/api
./bin/thecrowler Construya según los necesite, o ejecute el autobuild.sh (sin argumentos) para construirlos todos.
Opcionalmente, puede construir la imagen Docker, para hacerlo, ejecute el siguiente comando:
docker build -t < image name > .Nota : Si construye el contenedor Crowler Engine Docker, recuerde ejecutarlo con el siguiente comando Docker (¡es necesario!)
docker run -it --rm --cap-add=NET_ADMIN --cap-add=NET_RAW crowler_engineNota importante : si se construye desde la fuente, aún necesita construir una imagen Crowler VDI Docker, que se necesita porque Crowler usa un montón de herramientas externas para hacer su trabajo y todas esas herramientas se agrupan y construyen en la imagen VDI (imagen de escritorio virtual).
Para obtener instrucciones sobre cómo usarlo, vea aquí.
Si desea utilizar el Crowler en producción, le recomiendo usar la instalación de Docker Compose. Es la forma más fácil de instalarlo y es la más segura.
Para una mejor seguridad, recomiendo implementar la API en un contenedor separado que el Crowler. Además, no hay necesidad de exponer el contenedor Crowler al mundo exterior, necesitará un pensamiento de acceso a Internet.
La configuración predeterminada de Crowler utiliza PostgreSQL como su base de datos. La base de datos se almacena en un volumen de Docker y es persistente.
El DB no debe necesitar mantenimiento, el Crowler se encargará de eso. Cada vez que no hay actividad de rastreo y se pasa 1 horas desde la actividad de mantenimiento anterior, el Crowler limpiará la base de datos y optimizará los índices.
El Crowler tiene licencia bajo la licencia Apache 2.0. Para obtener más información, consulte el archivo de licencia.
Si desea contribuir al proyecto, lea el archivo contribuyente.
El Crowler ha adoptado el Código de Conducta del Pacto de contribuyente. Para obtener más información, consulte el archivo Code_of_Conduct.
El Crowler está construido sobre muchos proyectos de código abierto, y quiero agradecer a todos los desarrolladores que contribuyeron a esos proyectos. Sin ellos, el Crowler no sería posible.
Además, quiero agradecer a las personas que me están ayudando con el proyecto, ya sea contribuyendo con código, probándolo o proporcionando comentarios. ¡Gracias a todos!
El Crowler es una herramienta diseñada para ayudarlo a arrastrar los sitios web de una manera respetuosa. Sin embargo, depende de usted usarlo de manera respetuosa. El Crowler no es responsable de ningún mal uso de la herramienta.