LLMWebCrawler下载LLMWebCrawler源代码下载

LLMWebCrawler

其他源码

1.0.0

下载

基于LLM的Web爬行者

可扩展的Web爬网，这里是此轨道的功能列表：

该服务可以递归递归Web存储链接其文本和相应的文本嵌入。
我们使用大型语言模型（例如BERT）获取文本嵌入，即每个网络上存在的文本的向量表示。
该服务是可扩展的，我们使用射线扩散到多名工人中。
条目存储在矢量数据库中。矢量数据库是根据向量表示保存和检索样品的理想选择。

通过将表示形式保存到矢量数据库中，您可以根据两个向量的距离检索类似的页面。这对于浏览器检索最相关的结果至关重要。

CLI

用码头运行爬网：

$ python cli_crawl.py --help

options:
  -h, --help            show this help message and exit
  -u INITIAL_URLS [INITIAL_URLS ...], --initial-urls INITIAL_URLS [INITIAL_URLS ...]
  -lm LANGUAGE_MODEL, --language-model LANGUAGE_MODEL
  -m MAX_DEPTH, --max-depth MAX_DEPTH

API

用uvicorn和FastAPI托管API。

uvicorn api_app:app --host 0.0.0.0 --port 80

在start_api_and_head_node.sh中查看示例。请注意，射线头节点需要先初始化。

大语言模型

对于我们的用例，我们只需使用拥抱面而实现的BERT模型来从Web文本中提取嵌入。更确切地说，我们使用Bert-Base-uncund。请注意，该代码是不可知论的，可以注册新模型并使用几行代码添加，请查看llm/best.py 。

保存爬行的数据

我们使用MILVUS作为我们的主要数据库管理员软件。由于其继承的搜索能力和基于向量表示（嵌入）的搜索能力，因此我们使用了矢量式数据库。

Milvus Lite

按照以下方式启动您的独立Milvus服务器，建议使用tmux等多路复用器软件：

tmux new -s milvus
milvus-server

在scripts/查看对Milvus的一些基本请求。

Docker组成

您也可以使用官方的docker compose模板：

docker compose --file milvus-docker-compose.yml up -d

并行计算

我们使用Ray，是很棒的Python框架来运行分布式和并行处理。 Ray遵循Master-Worker范式，在该范式上， head Node将要求将任务执行给连接的工人。

启动头部和雷的工人节点

头节点

设置头节点

ray start --head

将您的程序连接到头节点

 import ray

# Connect to the head
ray . init ( "auto" )

如果您想停止射线节点：

ray stop

或检查状态：

ray status

工人节点

初始化工人节点

ray start

工人节点不需要执行代码，因为头节点将序列化并将参数和实施提交给工人。

未来功能

当前的实现是POC。可以做出许多改进：

[重要] API中的新入口点搜索给定文本的类似URL。
优化搜索和API。
通过流行的图书馆（例如Langchain）添加新的LLMS型号和新的块策略。
也许在矢量数据库中存储更多功能会产生摘要。

贡献

欢迎所有问题和公关吗？

参考

射线文档
米尔维斯
Fastapi
拥抱面

展开

附加信息

版本 1.0.0
类型其他源码
更新时间 2025-05-25
大小 15.11KB
来自于 Github

LLMWebCrawler

基于LLM的Web爬行者

CLI

API

大语言模型

保存爬行的数据

Milvus Lite

Docker组成

并行计算

启动头部和雷的工人节点

头节点

工人节点

未来功能

贡献

参考

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express