Descarga de thecrowler - Descarga del código fuente thecrowler

thecrowler

Otro código fuente

1.0.0

Descargar

El Crowler

Estado del proyecto: ¡todavía bajo desarrollo activo! Sin embargo, la mayor parte ya es utilizable. ¡Bienvenido a los probadores alfa! Estadísticas completas sobre el trabajo diario aquí.

Tenga en cuenta : este es el nuevo repositorio oficial para el proyecto, los antiguos repositorios de C ++ y Rust ahora están cerrados y ya no están disponibles/mantenidos. Utilice este para cualquier desarrollo nuevo.

¿Qué es?

El Crowler es un rastreador web de código abierto, rico en funciones, diseñado con una filosofía única en su núcleo: ser lo más gentil y de bajo ruido posible. En otras palabras, el Crowler intenta destacarse al garantizar un impacto mínimo en los sitios web que se arrastra mientras maximiza la conveniencia para sus usuarios.

Además, el sistema está equipado con una API, que proporciona una interfaz optimizada para consultas de datos. Esta característica garantiza una fácil integración y acceso a datos indexados para varias aplicaciones.

El Crowler está diseñado para estar basado en micro-servicios, por lo que se puede implementar fácilmente en un entorno contenedorizado.

Tabla de contenido

Características
¿Qué problema resuelve?
¿Cómo pronuncio el nombre?
¿Cómo usarlo?
- Requisitos previos
- Instalación
  - Fácil instalación e implementación
  - Si planea instalarlo manualmente
  - Construir desde la fuente
Producción
Mantenimiento de DB
Licencia
Que contribuye
Código de conducta
Expresiones de gratitud
Descargo de responsabilidad
Los principales contribuyentes

Características

Bajo ruido : el Crowler está diseñado para ser lo más suave posible al rastrear sitios web. Respeta robots.txt, y está diseñado para tratar de aparecer como un usuario humano en los sitios web que se arrastra.
Rastreo personalizable : adapte su experiencia de rastreo como nunca antes. Especifique las URL y configure los parámetros de rastreo individual para que se ajusten a sus necesidades precisas. Ya sea una sola página o un dominio expansivo, el Crowler se adapta a su alcance con una flexibilidad inigualable.
Variabilidad del alcance : defina sus límites de rastreo con precisión. Elija entre:
- URL singular gateado
- Dominios en todo el dominio (combinando dominios L3, L2 y L1)
- Rastreo de dominio L2 y L1
- L1 Dominio Rateo (por ejemplo, todo dentro de ".com")
- Gastamiento recursivo completo, aventurándose más allá de los límites iniciales para explorar URL conectadas
Capacidades de detección avanzada : descubra una gran cantidad de información con características que van más allá del rastreo básico:
- URL y descubrimiento de contenido
- Contenido de la página, metadatos y más
- Análisis de palabras clave y detección de idiomas
- Encabezados HTTP perspicaces, información de red, WHOIS, DNS y datos de geo-localización
Conjunto de reglas sofisticado : para aprovechar las actividades basadas en reglas y la personalización lógica, el Crowler ofrece:
- Reglas de raspado: extraer precisamente lo que necesita de los sitios web
- Reglas de acciones: interactuar con los sitios web de una manera más dinámica
- Reglas de detección: para identificar patrones o elementos específicos en una página, tecnologías utilizadas, etc.
- Reglas de rastreo: para definir cómo el rastreador debe comportarse en diferentes situaciones (por ejemplo, tanto el rastreo recursivo como no recursivo, la confusión, etc.)
Integración de motor de búsqueda potente : utilice un motor de búsqueda impulsado por API equipado con capacidades de d correncia y búsqueda integral de contenido, abriendo nuevas vías para el análisis de datos y la información.

Para obtener más información sobre las características, consulte la página de características.

¿Qué problema resuelve?

El Crowler está diseñado para resolver un conjunto de problemas sobre el rastreo web, el descubrimiento de contenido, la detección de tecnología y la extracción de datos.

Si bien su objetivo principal es permitir a los usuarios privados, profesionales y empresariales desarrollar rápidamente sus soluciones de descubrimiento de contenido, también está diseñado para poder rastrear redes e intranets privadas, para que pueda usarlo para crear su propio motor de búsqueda o su empresa.

Además de eso, también se puede utilizar como "base" para una herramienta de seguridad cibernética más compleja, ya que puede usarse para recopilar información sobre un sitio web, su red, sus propietarios, vulnerabilidades, qué servicios están siendo expuestos, etc.

Dado que también puede extraer información, se puede utilizar para crear bases de conocimiento con referencia a las fuentes o para crear una base de datos de información sobre un tema específico.

Obviamente, también se puede usar para hacer análisis de palabras clave, detección de idiomas, etc. Pero esto es algo para lo que se puede usar cada rastreador. Sin embargo, se implementan/se implementan todas las características "clásicas".

¿Cómo pronuncio el nombre?

El : pronunciado como / ðə / cuando antes de un sonido consonante, suena como "thuh".

Crow : pronunciado como /kroʊ /, rima con "saber" o "nieve".

ler : la última parte se pronuncia como /lər /, similar al final de la palabra "rastreador" o la palabra "ler" en "tumbler".

Poniendo todo junto, suena como " thuh kroh-lər "

Lo que Chatgpt piensa sobre el Crowler;)

"El Crowler no es solo una herramienta; es un compromiso con el rastreo web ético, eficiente y efectivo. Ya sea que esté realizando investigaciones académicas, análisis de mercado o mejorando su postura de ciberseguridad, el Crowler ofrece integridad y precisión.

Únase a nosotros para redefinir los estándares del rastreo web. Explore más y contribuya al viaje de Crowler hacia una exploración digital más respetuosa y perspicaz ".

? Eso es claramente un poco exagerado, pero fue divertido y decidí incluirlo aquí, solo por diversión. Por cierto, me hace caer como quisiera agregar:

"... ¡y hay una cosa más!" (¿Me pregunto por qué?!?!)?

¿Cómo usarlo?

Requisitos previos

El Crowler está diseñado para estar basado en micro-servicios, por lo que deberá instalar lo siguiente:

Estibador
Docker componer

Para una instalación basada en Docker Compose, eso es todo lo que necesita. Si tiene instalado Docker y Docker, puede omitir la siguiente sección y ir directamente a la sección de instalación .

Instalación

1. Instalación e implementación fáciles

La forma más fácil de instalar Crowler es usar el archivo Docker Compose. Para hacerlo, siga las instrucciones aquí.

Tenga en cuenta que (1) : si tiene preguntas sobre config.yaml o los vars env, o el conjunto de reglas, etc., puede usar el chatbot GPT para ayudarlo. Simplemente vaya a este enlace aquí (está disponible gratuitamente para todos)

Tenga en cuenta (2) : si está ejecutando el Crowler en una Raspberry Pi, deberá construir el Crowler para la plataforma arm64 . Para hacerlo, la forma más fácil es construir el Crowler con el guión docker-build.sh directamente en Raspberry Pi.

2. Si planeas instalarlo manualmente

Si, en cambio, planea instalar el Crowler manualmente, deberá instalar el siguiente contenedor Docker:

Contenedor postgresql
- Postgres 15 Up (tanto para ARM como X86) se admiten en este momento.
- Y luego ejecute el script de configuración del esquema de DB (asegúrese de verificar la sección del esquema de DB con las credenciales del usuario y configure esas variables SQL correctamente)
También tenga en cuenta: el Crowler necesitará su imagen VDI para construir, por lo que también deberá construir la imagen VDI.

Construir desde la fuente

Si usa la composición de Docker, todo se construirá automáticamente, todo lo que deberá hacer es seguir las instrucciones en la sección de instalación.

Si, en su lugar, desea construir localmente en su máquina, siga las instrucciones en esta sección.

Para construir el Crowler desde la fuente, deberá instalar lo siguiente:

Ir

Luego necesitará clonar el repositorio y crear los objetivos que necesita.

Para construir todo a la vez, ejecute el siguiente comando:

./autobuild.sh

Para construir objetivos individuales:

Primero, verifique qué objetivos se pueden construir y están disponibles, ejecute el siguiente comando:

./autobuild name-of-the-target

Esto creará su componente solicitado en ./bin

./bin/removeSite
./bin/addSite
./bin/addCategory
./bin/api
./bin/thecrowler

Construya según los necesite, o ejecute el autobuild.sh (sin argumentos) para construirlos todos.

Opcionalmente, puede construir la imagen Docker, para hacerlo, ejecute el siguiente comando:

docker build -t < image name > .

Nota : Si construye el contenedor Crowler Engine Docker, recuerde ejecutarlo con el siguiente comando Docker (¡es necesario!)

docker run -it --rm --cap-add=NET_ADMIN --cap-add=NET_RAW crowler_engine

Nota importante : si se construye desde la fuente, aún necesita construir una imagen Crowler VDI Docker, que se necesita porque Crowler usa un montón de herramientas externas para hacer su trabajo y todas esas herramientas se agrupan y construyen en la imagen VDI (imagen de escritorio virtual).

Uso

Para obtener instrucciones sobre cómo usarlo, vea aquí.

Producción

Si desea utilizar el Crowler en producción, le recomiendo usar la instalación de Docker Compose. Es la forma más fácil de instalarlo y es la más segura.

Para una mejor seguridad, recomiendo implementar la API en un contenedor separado que el Crowler. Además, no hay necesidad de exponer el contenedor Crowler al mundo exterior, necesitará un pensamiento de acceso a Internet.

Mantenimiento de DB

La configuración predeterminada de Crowler utiliza PostgreSQL como su base de datos. La base de datos se almacena en un volumen de Docker y es persistente.

El DB no debe necesitar mantenimiento, el Crowler se encargará de eso. Cada vez que no hay actividad de rastreo y se pasa 1 horas desde la actividad de mantenimiento anterior, el Crowler limpiará la base de datos y optimizará los índices.

Licencia

El Crowler tiene licencia bajo la licencia Apache 2.0. Para obtener más información, consulte el archivo de licencia.

Que contribuye

Si desea contribuir al proyecto, lea el archivo contribuyente.

Código de conducta

El Crowler ha adoptado el Código de Conducta del Pacto de contribuyente. Para obtener más información, consulte el archivo Code_of_Conduct.

Expresiones de gratitud

El Crowler está construido sobre muchos proyectos de código abierto, y quiero agradecer a todos los desarrolladores que contribuyeron a esos proyectos. Sin ellos, el Crowler no sería posible.

Además, quiero agradecer a las personas que me están ayudando con el proyecto, ya sea contribuyendo con código, probándolo o proporcionando comentarios. ¡Gracias a todos!

Descargo de responsabilidad

El Crowler es una herramienta diseñada para ayudarlo a arrastrar los sitios web de una manera respetuosa. Sin embargo, depende de usted usarlo de manera respetuosa. El Crowler no es responsable de ningún mal uso de la herramienta.

Los principales contribuyentes

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-03-11
tamaño 1.41MB
Proviene de Github

Aplicaciones relacionadas

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo