thecrowler下载thecrowler源代码下载

thecrowler

其他源码

1.0.0

下载

流浪者

项目状态：仍在积极发展！但是，大多数已经是可用的。 Alpha测试人员欢迎！在这里进行日常工作的完整统计数据。

请注意：这是该项目的新官方存储库，旧的C ++和Rust存储库现已关闭，不再可用/维护。请将此用于任何新开发项目。

这是什么？

Crowler是一个开源的，功能丰富的网络爬行者，其核心是独特的哲学：尽可能温柔而低声。换句话说，Crowler试图通过确保对其爬网的网站的影响最小的影响，同时为用户最大化的便利性而脱颖而出。

此外，该系统配备了API，为数据查询提供了简化的接口。此功能可确保轻松集成并访问各种应用程序的索引数据。

Crowler旨在基于微服务，因此可以轻松地部署在容器化的环境中。

低噪声：Crowler被设计为在爬行网站时尽可能温和。它尊重robots.txt，其设计旨在尝试以人类用户的形式出现在其爬网的网站上。
可定制的爬行：量身定制您从未有过的爬行经验。指定URL并配置单个爬网参数以满足您的精确需求。无论是一个页面还是一个扩展的域，Crowler都以无与伦比的灵活性适应您的范围。
范围可变性：精确定义您的爬行边界。选择：
- 奇异的URL爬行
- 整个域的爬行（结合L3，L2和L1域）
- L2和L1域爬行
- L1域爬行（例如，“ .com”中的所有内容）
- 完全递归的爬行，超越初始边界的冒险，以探索连接的URL
高级检测功能：发现大量信息，其功能超出了基本爬行：
- URL和内容发现
- 页面内容，元数据等等
- 关键字分析和语言检测
- 有见地的HTTP标题，网络信息，WHOIS，DNS和地理位置数据
复杂的规则集：为了利用基于规则的活动和逻辑自定义，Crowler提供了：
- 刮擦规则：精确提取您从网站上需要的东西
- 操作规则：以更具动态的方式与网站进行交互
- 检测规则：在页面，所使用的技术等上确定特定模式或元素。
- 爬行规则：定义爬行者应在不同情况下的行为（例如，递归和非恢复性爬行，模糊等）
功能强大的搜索引擎集成：使用配备笨拙功能和全面内容搜索的API驱动搜索引擎，为数据分析和洞察力打开了新的途径。

有关功能的更多信息，请参见“功能”页面。

它解决了什么问题？

Crowler旨在解决有关网络爬网，内容发现，技术检测和数据提取的一系列问题。

虽然它的主要目标是启用私人，专业和企业用户快速开发其内容发现解决方案，但它也旨在能够抓取私人网络和内部网络，以便您可以使用它来创建自己的或您的公司搜索引擎。

最重要的是，它也可以用作更复杂的网络安全工具的“基础”，因为它可用于收集有关网站，网络，其所有者，漏洞，正在公开哪些服务等的信息。

鉴于它也可以提取信息，因此可以用来参考来源创建知识库，或者创建有关特定主题的信息数据库。

显然，它也可以用于进行关键字分析，语言检测等。但这是每个轨道都可以使用的东西。但是，所有“经典”功能均已实现/实现。

如何发音名称？

：发音为 /ðə /在辅音声音之前，听起来像“ thuh”。

乌鸦：宣布为 /kroʊ /，带有“知道”或“雪”的押韵。

ler ：后一部分被称为 /lər /，类似于“ crawler”一词或“ tumbler”中的“ ler”一词的结尾。

将它们放在一起，听起来像“ thuh kroh-lər ”

Chatgpt对杂技的看法;）

“ Crowler不仅是一种工具；这是对道德，高效和有效的网络爬网的承诺。无论您是进行学术研究，市场分析还是增强网络安全姿势，Crowler都以正直和精确的方式提供。

加入我们重新定义网络爬行的标准。探索更多，并促进了Crowler迈向更尊重和有见地的数字探索的旅程。”

？显然这有点高，但是很有趣，我决定将其包括在这里，只是为了好玩。顺便说一句，这确实使我跌倒了，就像我想添加的那样：

“……还有一件事！” （我想知道为什么？！？！）？

如何使用它？

先决条件

Crowler旨在基于微服务，因此您需要安装以下内容：

Docker
Docker组成

对于基于Docker的安装，这就是您所需要的。如果您安装了Docker和Docker组合，则可以跳过下一节，然后直接转到安装部分。

安装

1。轻松安装和部署

安装Crowler的最简单方法是使用Docker组成的文件。为此，请按照此处的说明进行操作。

请注意（1） ：如果您对config.yaml或env vars或规则集等有疑问，则可以使用GPT聊天机器人来帮助您。只需在此处转到此链接（每个人都可以免费使用）

请注意（2） ：如果您在Raspberry Pi上运行Crowler，则需要为arm64平台构建Crowler。为此，更简单的方法是直接在Raspberry Pi上使用docker-build.sh脚本来构建Crowler。

2。如果您打算手动安装它

相反，如果您打算手动安装Crowler，则需要安装以下Docker容器：

PostgreSQL容器
- 目前支持Postgres 15 UP（对于ARM和X86）。
- 然后在其上运行DB模式设置脚本（确保您使用用户凭据检查DB模式的部分，并正确设置这些SQL变量）
另请注意：Crowler将需要构建其VDI图像，因此您还需要构建VDI图像。

从源构建

如果您使用Docker组成，那么所有内容都将自动构建，您需要做的就是按照安装部分中的说明进行操作。

如果您想在计算机上本地构建，请按照本节中的说明进行操作。

要从来源构建Crowler，您需要安装以下内容：

去

然后，您需要克隆存储库并构建所需的目标。

立即构建所有内容，运行以下命令：

./autobuild.sh

建立个别目标：

首先，检查可以构建哪些目标并可用，请运行以下命令：

./autobuild name-of-the-target

这将在./bin中构建您要求的组件

./bin/removeSite
./bin/addSite
./bin/addCategory
./bin/api
./bin/thecrowler

根据需要构建它们，或运行autobuild.sh （无参数）来构建它们。

您可以选择构建Docker映像，以运行以下命令：

docker build -t < image name > .

注意：如果您构建Crowler Engine Docker容器，请记住使用以下Docker命令运行它（这是必需的！）

docker run -it --rm --cap-add=NET_ADMIN --cap-add=NET_RAW crowler_engine

重要说明：如果您是从源构建的，您仍然需要构建Crowler VDI Docker映像，这是需要的，因为Crowler使用了许多外部工具来完成其工作，并且所有这些工具都在VDI Image（虚拟桌面图像）中进行了分组和构建。

用法

有关如何使用它的说明，请参见此处。

生产

如果您想在生产中使用Crowler，我建议使用Docker组成的安装。这是安装它的最简单方法，也是最安全的方法。

为了更好的安全性，我强烈建议将API部署在一个单独的容器中，而不是Crowler。另外，无需将Crowler容器曝光到外界，它将需要Internet访问思想。

DB维护

Crowler默认配置使用PostgreSQL作为其数据库。该数据库存储在Docker卷中，并且持续存在。

DB不需要维护，Crawler会考虑到这一点。每当没有爬行活动，并且从以前的维护活动开始了1小时，Crowler就会清理数据库并优化索引。

执照

Crowler已获得Apache 2.0许可证的许可。有关更多信息，请参阅许可证文件。

贡献

如果您想为该项目做出贡献，请阅读贡献文件。

行为守则

Crowler采用了贡献者盟约行为准则。有关更多信息，请参见Code_of_conduct文件。

致谢

Crowler建立在许多开源项目之上，我要感谢所有为这些项目做出贡献的开发人员。没有他们，宣传者将是不可能的。

另外，我要感谢那些通过贡献代码，测试或提供反馈来帮助我进行该项目的人。谢谢大家！

免责声明

Crowler是一种工具，旨在帮助您以尊重的方式爬网网站。但是，要以尊重的方式使用它。 Crowler对工具的任何滥用都不负责。

顶级贡献者

展开

附加信息

版本 1.0.0
类型其他源码
更新时间 2025-03-11
大小 1.41MB
来自于 Github

thecrowler

流浪者

这是什么？

目录

特征

它解决了什么问题？

如何发音名称？

Chatgpt对杂技的看法;）

如何使用它？

先决条件

安装

1。轻松安装和部署

2。如果您打算手动安装它

从源构建

用法

生产

DB维护

执照

贡献

行为守则

致谢

免责声明

顶级贡献者

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express