thecrowler下載thecrowler源代碼下載

thecrowler

其他源碼

1.0.0

下載

流浪者

項目狀態：仍在積極發展！但是，大多數已經是可用的。 Alpha測試人員歡迎！在這裡進行日常工作的完整統計數據。

請注意：這是該項目的新官方存儲庫，舊的C ++和Rust存儲庫現已關閉，不再可用/維護。請將此用於任何新開發項目。

這是什麼？

Crowler是一個開源的，功能豐富的網絡爬行者，其核心是獨特的哲學：盡可能溫柔而低聲。換句話說，Crowler試圖通過確保對其爬網的網站的影響最小的影響，同時為用戶最大化的便利性而脫穎而出。

此外，該系統配備了API，為數據查詢提供了簡化的接口。此功能可確保輕鬆集成並訪問各種應用程序的索引數據。

Crowler旨在基於微服務，因此可以輕鬆地部署在容器化的環境中。

低噪聲：Crowler被設計為在爬行網站時盡可能溫和。它尊重robots.txt，其設計旨在嘗試以人類用戶的形式出現在其爬網的網站上。
可定制的爬行：量身定制您從未有過的爬行經驗。指定URL並配置單個爬網參數以滿足您的精確需求。無論是一個頁面還是一個擴展的域，Crowler都以無與倫比的靈活性適應您的範圍。
範圍可變性：精確定義您的爬行邊界。選擇：
- 奇異的URL爬行
- 整個域的爬行（結合L3，L2和L1域）
- L2和L1域爬行
- L1域爬行（例如，“ .com”中的所有內容）
- 完全遞歸的爬行，超越初始邊界的冒險，以探索連接的URL
高級檢測功能：發現大量信息，其功能超出了基本爬行：
- URL和內容髮現
- 頁面內容，元數據等等
- 關鍵字分析和語言檢測
- 有見地的HTTP標題，網絡信息，WHOIS，DNS和地理位置數據
複雜的規則集：為了利用基於規則的活動和邏輯自定義，Crowler提供了：
- 刮擦規則：精確提取您從網站上需要的東西
- 操作規則：以更具動態的方式與網站進行交互
- 檢測規則：在頁面，所使用的技術等上確定特定模式或元素。
- 爬行規則：定義爬行者應在不同情況下的行為（例如，遞歸和非恢復性爬行，模糊等）
功能強大的搜索引擎集成：使用配備笨拙功能和全面內容搜索的API驅動搜索引擎，為數據分析和洞察力打開了新的途徑。

有關功能的更多信息，請參見“功能”頁面。

它解決了什麼問題？

Crowler旨在解決有關網絡爬網，內容髮現，技術檢測和數據提取的一系列問題。

雖然它的主要目標是啟用私人，專業和企業用戶快速開發其內容髮現解決方案，但它也旨在能夠抓取私人網絡和內部網絡，以便您可以使用它來創建自己的或您的公司搜索引擎。

最重要的是，它也可以用作更複雜的網絡安全工具的“基礎”，因為它可用於收集有關網站，網絡，其所有者，漏洞，正在公開哪些服務等的信息。

鑑於它也可以提取信息，因此可以用來參考來源創建知識庫，或者創建有關特定主題的信息數據庫。

顯然，它也可以用於進行關鍵字分析，語言檢測等。但這是每個軌道都可以使用的東西。但是，所有“經典”功能均已實現/實現。

如何發音名稱？

：發音為 /ðə /在輔音聲音之前，聽起來像“ thuh”。

烏鴉：宣佈為 /kroʊ /，帶有“知道”或“雪”的押韻。

ler ：後一部分被稱為 /lər /，類似於“ crawler”一詞或“ tumbler”中的“ ler”一詞的結尾。

將它們放在一起，聽起來像“ thuh kroh-lər ”

Chatgpt對雜技的看法;）

“ Crowler不僅是一種工具；這是對道德，高效和有效的網絡爬網的承諾。無論您是進行學術研究，市場分析還是增強網絡安全姿勢，Crowler都以正直和精確的方式提供。

加入我們重新定義網絡爬行的標準。探索更多，並促進了Crowler邁向更尊重和有見地的數字探索的旅程。”

？顯然這有點高，但是很有趣，我決定將其包括在這裡，只是為了好玩。順便說一句，這確實使我跌倒了，就像我想添加的那樣：

“……還有一件事！” （我想知道為什麼？！？！）？

如何使用它？

先決條件

Crowler旨在基於微服務，因此您需要安裝以下內容：

Docker
Docker組成

對於基於Docker的安裝，這就是您所需要的。如果您安裝了Docker和Docker組合，則可以跳過下一節，然後直接轉到安裝部分。

安裝

1。輕鬆安裝和部署

安裝Crowler的最簡單方法是使用Docker組成的文件。為此，請按照此處的說明進行操作。

請注意（1） ：如果您對config.yaml或env vars或規則集等有疑問，則可以使用GPT聊天機器人來幫助您。只需在此處轉到此鏈接（每個人都可以免費使用）

請注意（2） ：如果您在Raspberry Pi上運行Crowler，則需要為arm64平台構建Crowler。為此，更簡單的方法是直接在Raspberry Pi上使用docker-build.sh腳本來構建Crowler。

2。如果您打算手動安裝它

相反，如果您打算手動安裝Crowler，則需要安裝以下Docker容器：

PostgreSQL容器
- 目前支持Postgres 15 UP（對於ARM和X86）。
- 然後在其上運行DB模式設置腳本（確保您使用用戶憑據檢查DB模式的部分，並正確設置這些SQL變量）
另請注意：Crowler將需要構建其VDI圖像，因此您還需要構建VDI圖像。

從源構建

如果您使用Docker組成，那麼所有內容都將自動構建，您需要做的就是按照安裝部分中的說明進行操作。

如果您想在計算機上本地構建，請按照本節中的說明進行操作。

要從來源構建Crowler，您需要安裝以下內容：

去

然後，您需要克隆存儲庫並構建所需的目標。

立即構建所有內容，運行以下命令：

./autobuild.sh

建立個別目標：

首先，檢查可以構建哪些目標並可用，請運行以下命令：

./autobuild name-of-the-target

這將在./bin中構建您要求的組件

./bin/removeSite
./bin/addSite
./bin/addCategory
./bin/api
./bin/thecrowler

根據需要構建它們，或運行autobuild.sh （無參數）來構建它們。

您可以選擇構建Docker映像，以運行以下命令：

docker build -t < image name > .

注意：如果您構建Crowler Engine Docker容器，請記住使用以下Docker命令運行它（這是必需的！）

docker run -it --rm --cap-add=NET_ADMIN --cap-add=NET_RAW crowler_engine

重要說明：如果您是從源構建的，您仍然需要構建Crowler VDI Docker映像，這是需要的，因為Crowler使用了許多外部工具來完成其工作，並且所有這些工具都在VDI Image（虛擬桌面圖像）中進行了分組和構建。

用法

有關如何使用它的說明，請參見此處。

生產

如果您想在生產中使用Crowler，我建議使用Docker組成的安裝。這是安裝它的最簡單方法，也是最安全的方法。

為了更好的安全性，我強烈建議將API部署在一個單獨的容器中，而不是Crowler。另外，無需將Crowler容器曝光到外界，它將需要Internet訪問思想。

DB維護

Crowler默認配置使用PostgreSQL作為其數據庫。該數據庫存儲在Docker卷中，並且持續存在。

DB不需要維護，Crawler會考慮到這一點。每當沒有爬行活動，並且從以前的維護活動開始了1小時，Crowler就會清理數據庫並優化索引。

執照

Crowler已獲得Apache 2.0許可證的許可。有關更多信息，請參閱許可證文件。

貢獻

如果您想為該項目做出貢獻，請閱讀貢獻文件。

行為守則

Crowler採用了貢獻者盟約行為準則。有關更多信息，請參見Code_of_conduct文件。

致謝

Crowler建立在許多開源項目之上，我要感謝所有為這些項目做出貢獻的開發人員。沒有他們，宣傳者將是不可能的。

另外，我要感謝那些通過貢獻代碼，測試或提供反饋來幫助我進行該項目的人。謝謝大家！

免責聲明

Crowler是一種工具，旨在幫助您以尊重的方式爬網網站。但是，要以尊重的方式使用它。 Crowler對工具的任何濫用都不負責。

頂級貢獻者

展開

附加信息

版本 1.0.0
類型其他源碼
更新時間 2025-03-11
大小 1.41MB
來自於 Github

相關應用

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3

相關資訊全部

thecrowler

流浪者

這是什麼？

目錄

特徵

它解決了什麼問題？

如何發音名稱？

Chatgpt對雜技的看法;）

如何使用它？

先決條件

安裝

1。輕鬆安裝和部署

2。如果您打算手動安裝它

從源構建

用法

生產

DB維護

執照

貢獻

行為守則

致謝

免責聲明

頂級貢獻者

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express