项目状态:仍在积极发展!但是,大多数已经是可用的。 Alpha测试人员欢迎!在这里进行日常工作的完整统计数据。
请注意:这是该项目的新官方存储库,旧的C ++和Rust存储库现已关闭,不再可用/维护。请将此用于任何新开发项目。
Crowler是一个开源的,功能丰富的网络爬行者,其核心是独特的哲学:尽可能温柔而低声。换句话说,Crowler试图通过确保对其爬网的网站的影响最小的影响,同时为用户最大化的便利性而脱颖而出。
此外,该系统配备了API,为数据查询提供了简化的接口。此功能可确保轻松集成并访问各种应用程序的索引数据。
Crowler旨在基于微服务,因此可以轻松地部署在容器化的环境中。
有关功能的更多信息,请参见“功能”页面。
Crowler旨在解决有关网络爬网,内容发现,技术检测和数据提取的一系列问题。
虽然它的主要目标是启用私人,专业和企业用户快速开发其内容发现解决方案,但它也旨在能够抓取私人网络和内部网络,以便您可以使用它来创建自己的或您的公司搜索引擎。
最重要的是,它也可以用作更复杂的网络安全工具的“基础”,因为它可用于收集有关网站,网络,其所有者,漏洞,正在公开哪些服务等的信息。
鉴于它也可以提取信息,因此可以用来参考来源创建知识库,或者创建有关特定主题的信息数据库。
显然,它也可以用于进行关键字分析,语言检测等。但这是每个轨道都可以使用的东西。但是,所有“经典”功能均已实现/实现。
:发音为 /ðə /在辅音声音之前,听起来像“ thuh”。
乌鸦:宣布为 /kroʊ /,带有“知道”或“雪”的押韵。
ler :后一部分被称为 /lər /,类似于“ crawler”一词或“ tumbler”中的“ ler”一词的结尾。
将它们放在一起,听起来像“ thuh kroh-lər ”
“ Crowler不仅是一种工具;这是对道德,高效和有效的网络爬网的承诺。无论您是进行学术研究,市场分析还是增强网络安全姿势,Crowler都以正直和精确的方式提供。
加入我们重新定义网络爬行的标准。探索更多,并促进了Crowler迈向更尊重和有见地的数字探索的旅程。”
?显然这有点高,但是很有趣,我决定将其包括在这里,只是为了好玩。顺便说一句,这确实使我跌倒了,就像我想添加的那样:
“……还有一件事!” (我想知道为什么?!?!)?
Crowler旨在基于微服务,因此您需要安装以下内容:
对于基于Docker的安装,这就是您所需要的。如果您安装了Docker和Docker组合,则可以跳过下一节,然后直接转到安装部分。
安装Crowler的最简单方法是使用Docker组成的文件。为此,请按照此处的说明进行操作。
请注意(1) :如果您对config.yaml或env vars或规则集等有疑问,则可以使用GPT聊天机器人来帮助您。只需在此处转到此链接(每个人都可以免费使用)
请注意(2) :如果您在Raspberry Pi上运行Crowler,则需要为arm64平台构建Crowler。为此,更简单的方法是直接在Raspberry Pi上使用docker-build.sh脚本来构建Crowler。
相反,如果您打算手动安装Crowler,则需要安装以下Docker容器:
PostgreSQL容器
另请注意:Crowler将需要构建其VDI图像,因此您还需要构建VDI图像。
如果您使用Docker组成,那么所有内容都将自动构建,您需要做的就是按照安装部分中的说明进行操作。
如果您想在计算机上本地构建,请按照本节中的说明进行操作。
要从来源构建Crowler,您需要安装以下内容:
然后,您需要克隆存储库并构建所需的目标。
立即构建所有内容,运行以下命令:
./autobuild.sh建立个别目标:
首先,检查可以构建哪些目标并可用,请运行以下命令:
./autobuild name-of-the-target这将在./bin中构建您要求的组件
./bin/removeSite
./bin/addSite
./bin/addCategory
./bin/api
./bin/thecrowler根据需要构建它们,或运行autobuild.sh (无参数)来构建它们。
您可以选择构建Docker映像,以运行以下命令:
docker build -t < image name > .注意:如果您构建Crowler Engine Docker容器,请记住使用以下Docker命令运行它(这是必需的!)
docker run -it --rm --cap-add=NET_ADMIN --cap-add=NET_RAW crowler_engine重要说明:如果您是从源构建的,您仍然需要构建Crowler VDI Docker映像,这是需要的,因为Crowler使用了许多外部工具来完成其工作,并且所有这些工具都在VDI Image(虚拟桌面图像)中进行了分组和构建。
有关如何使用它的说明,请参见此处。
如果您想在生产中使用Crowler,我建议使用Docker组成的安装。这是安装它的最简单方法,也是最安全的方法。
为了更好的安全性,我强烈建议将API部署在一个单独的容器中,而不是Crowler。另外,无需将Crowler容器曝光到外界,它将需要Internet访问思想。
Crowler默认配置使用PostgreSQL作为其数据库。该数据库存储在Docker卷中,并且持续存在。
DB不需要维护,Crawler会考虑到这一点。每当没有爬行活动,并且从以前的维护活动开始了1小时,Crowler就会清理数据库并优化索引。
Crowler已获得Apache 2.0许可证的许可。有关更多信息,请参阅许可证文件。
如果您想为该项目做出贡献,请阅读贡献文件。
Crowler采用了贡献者盟约行为准则。有关更多信息,请参见Code_of_conduct文件。
Crowler建立在许多开源项目之上,我要感谢所有为这些项目做出贡献的开发人员。没有他们,宣传者将是不可能的。
另外,我要感谢那些通过贡献代码,测试或提供反馈来帮助我进行该项目的人。谢谢大家!
Crowler是一种工具,旨在帮助您以尊重的方式爬网网站。但是,要以尊重的方式使用它。 Crowler对工具的任何滥用都不负责。