項目狀態:仍在積極發展!但是,大多數已經是可用的。 Alpha測試人員歡迎!在這裡進行日常工作的完整統計數據。
請注意:這是該項目的新官方存儲庫,舊的C ++和Rust存儲庫現已關閉,不再可用/維護。請將此用於任何新開發項目。
Crowler是一個開源的,功能豐富的網絡爬行者,其核心是獨特的哲學:盡可能溫柔而低聲。換句話說,Crowler試圖通過確保對其爬網的網站的影響最小的影響,同時為用戶最大化的便利性而脫穎而出。
此外,該系統配備了API,為數據查詢提供了簡化的接口。此功能可確保輕鬆集成並訪問各種應用程序的索引數據。
Crowler旨在基於微服務,因此可以輕鬆地部署在容器化的環境中。
有關功能的更多信息,請參見“功能”頁面。
Crowler旨在解決有關網絡爬網,內容髮現,技術檢測和數據提取的一系列問題。
雖然它的主要目標是啟用私人,專業和企業用戶快速開發其內容髮現解決方案,但它也旨在能夠抓取私人網絡和內部網絡,以便您可以使用它來創建自己的或您的公司搜索引擎。
最重要的是,它也可以用作更複雜的網絡安全工具的“基礎”,因為它可用於收集有關網站,網絡,其所有者,漏洞,正在公開哪些服務等的信息。
鑑於它也可以提取信息,因此可以用來參考來源創建知識庫,或者創建有關特定主題的信息數據庫。
顯然,它也可以用於進行關鍵字分析,語言檢測等。但這是每個軌道都可以使用的東西。但是,所有“經典”功能均已實現/實現。
:發音為 /ðə /在輔音聲音之前,聽起來像“ thuh”。
烏鴉:宣佈為 /kroʊ /,帶有“知道”或“雪”的押韻。
ler :後一部分被稱為 /lər /,類似於“ crawler”一詞或“ tumbler”中的“ ler”一詞的結尾。
將它們放在一起,聽起來像“ thuh kroh-lər ”
“ Crowler不僅是一種工具;這是對道德,高效和有效的網絡爬網的承諾。無論您是進行學術研究,市場分析還是增強網絡安全姿勢,Crowler都以正直和精確的方式提供。
加入我們重新定義網絡爬行的標準。探索更多,並促進了Crowler邁向更尊重和有見地的數字探索的旅程。”
?顯然這有點高,但是很有趣,我決定將其包括在這裡,只是為了好玩。順便說一句,這確實使我跌倒了,就像我想添加的那樣:
“……還有一件事!” (我想知道為什麼?!?!)?
Crowler旨在基於微服務,因此您需要安裝以下內容:
對於基於Docker的安裝,這就是您所需要的。如果您安裝了Docker和Docker組合,則可以跳過下一節,然後直接轉到安裝部分。
安裝Crowler的最簡單方法是使用Docker組成的文件。為此,請按照此處的說明進行操作。
請注意(1) :如果您對config.yaml或env vars或規則集等有疑問,則可以使用GPT聊天機器人來幫助您。只需在此處轉到此鏈接(每個人都可以免費使用)
請注意(2) :如果您在Raspberry Pi上運行Crowler,則需要為arm64平台構建Crowler。為此,更簡單的方法是直接在Raspberry Pi上使用docker-build.sh腳本來構建Crowler。
相反,如果您打算手動安裝Crowler,則需要安裝以下Docker容器:
PostgreSQL容器
另請注意:Crowler將需要構建其VDI圖像,因此您還需要構建VDI圖像。
如果您使用Docker組成,那麼所有內容都將自動構建,您需要做的就是按照安裝部分中的說明進行操作。
如果您想在計算機上本地構建,請按照本節中的說明進行操作。
要從來源構建Crowler,您需要安裝以下內容:
然後,您需要克隆存儲庫並構建所需的目標。
立即構建所有內容,運行以下命令:
./autobuild.sh建立個別目標:
首先,檢查可以構建哪些目標並可用,請運行以下命令:
./autobuild name-of-the-target這將在./bin中構建您要求的組件
./bin/removeSite
./bin/addSite
./bin/addCategory
./bin/api
./bin/thecrowler根據需要構建它們,或運行autobuild.sh (無參數)來構建它們。
您可以選擇構建Docker映像,以運行以下命令:
docker build -t < image name > .注意:如果您構建Crowler Engine Docker容器,請記住使用以下Docker命令運行它(這是必需的!)
docker run -it --rm --cap-add=NET_ADMIN --cap-add=NET_RAW crowler_engine重要說明:如果您是從源構建的,您仍然需要構建Crowler VDI Docker映像,這是需要的,因為Crowler使用了許多外部工具來完成其工作,並且所有這些工具都在VDI Image(虛擬桌面圖像)中進行了分組和構建。
有關如何使用它的說明,請參見此處。
如果您想在生產中使用Crowler,我建議使用Docker組成的安裝。這是安裝它的最簡單方法,也是最安全的方法。
為了更好的安全性,我強烈建議將API部署在一個單獨的容器中,而不是Crowler。另外,無需將Crowler容器曝光到外界,它將需要Internet訪問思想。
Crowler默認配置使用PostgreSQL作為其數據庫。該數據庫存儲在Docker卷中,並且持續存在。
DB不需要維護,Crawler會考慮到這一點。每當沒有爬行活動,並且從以前的維護活動開始了1小時,Crowler就會清理數據庫並優化索引。
Crowler已獲得Apache 2.0許可證的許可。有關更多信息,請參閱許可證文件。
如果您想為該項目做出貢獻,請閱讀貢獻文件。
Crowler採用了貢獻者盟約行為準則。有關更多信息,請參見Code_of_conduct文件。
Crowler建立在許多開源項目之上,我要感謝所有為這些項目做出貢獻的開發人員。沒有他們,宣傳者將是不可能的。
另外,我要感謝那些通過貢獻代碼,測試或提供反饋來幫助我進行該項目的人。謝謝大家!
Crowler是一種工具,旨在幫助您以尊重的方式爬網網站。但是,要以尊重的方式使用它。 Crowler對工具的任何濫用都不負責。