LLMWebCrawler下載LLMWebCrawler源代碼下載

LLMWebCrawler

其他源碼

1.0.0

下載

基於LLM的Web爬行者

可擴展的Web爬網，這裡是此軌道的功能列表：

該服務可以遞歸遞歸Web存儲鏈接其文本和相應的文本嵌入。
我們使用大型語言模型（例如BERT）獲取文本嵌入，即每個網絡上存在的文本的向量表示。
該服務是可擴展的，我們使用射線擴散到多名工人中。
條目存儲在矢量數據庫中。矢量數據庫是根據向量表示保存和檢索樣品的理想選擇。

通過將表示形式保存到矢量數據庫中，您可以根據兩個向量的距離檢索類似的頁面。這對於瀏覽器檢索最相關的結果至關重要。

CLI

用碼頭運行爬網：

$ python cli_crawl.py --help

options:
  -h, --help            show this help message and exit
  -u INITIAL_URLS [INITIAL_URLS ...], --initial-urls INITIAL_URLS [INITIAL_URLS ...]
  -lm LANGUAGE_MODEL, --language-model LANGUAGE_MODEL
  -m MAX_DEPTH, --max-depth MAX_DEPTH

API

用uvicorn和FastAPI託管API。

uvicorn api_app:app --host 0.0.0.0 --port 80

在start_api_and_head_node.sh中查看示例。請注意，射線頭節點需要先初始化。

大語言模型

對於我們的用例，我們只需使用擁抱面而實現的BERT模型來從Web文本中提取嵌入。更確切地說，我們使用Bert-Base-uncund。請注意，該代碼是不可知論的，可以註冊新模型並使用幾行代碼添加，請查看llm/best.py 。

保存爬行的數據

我們使用MILVUS作為我們的主要數據庫管理員軟件。由於其繼承的搜索能力和基於向量表示（嵌入）的搜索能力，因此我們使用了矢量式數據庫。

Milvus Lite

按照以下方式啟動您的獨立Milvus服務器，建議使用tmux等多路復用器軟件：

tmux new -s milvus
milvus-server

在scripts/查看對Milvus的一些基本請求。

Docker組成

您也可以使用官方的docker compose模板：

docker compose --file milvus-docker-compose.yml up -d

平行計算

我們使用Ray，是很棒的Python框架來運行分佈式和並行處理。 Ray遵循Master-Worker範式，在該範式上， head Node將要求將任務執行給連接的工人。

啟動頭部和雷的工人節點

頭節點

設置頭節點

ray start --head

將您的程序連接到頭節點

 import ray

# Connect to the head
ray . init ( "auto" )

如果您想停止射線節點：

ray stop

或檢查狀態：

ray status

工人節點

初始化工人節點

ray start

工人節點不需要執行代碼，因為頭節點將序列化並將參數和實施提交給工人。

未來功能

當前的實現是POC。可以做出許多改進：

[重要] API中的新入口點搜索給定文本的類似URL。
優化搜索和API。
通過流行的圖書館（例如Langchain）添加新的LLMS型號和新的塊策略。
也許在矢量數據庫中存儲更多功能會產生摘要。

貢獻

歡迎所有問題和公關嗎？

參考

射線文檔
米爾維斯
Fastapi
擁抱面

展開

附加信息

版本 1.0.0
類型其他源碼
更新時間 2025-05-25
大小 15.11KB
來自於 Github

相關應用

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3

相關資訊全部