LLMWebCrawlerダウンロードLLMWebCrawlerソースコードダウンロード

LLMWebCrawler

その他のソースコード

1.0.0

ダウンロード

LLMベースのWeb Crawler

スケーラブルなWebクローラー、ここにこのクローラーの機能のリスト：

このサービスは、テキストと対応するテキストの埋め込みリンクをリンクするWeb保存のリンクを再帰的にcraうとします。
大規模な言語モデル（Bertなど）を使用してテキストの埋め込みを取得します。つまり、各Webisteに存在するテキストのベクトル表現です。
サービスはスケーラブルで、Rayを使用して複数の労働者に広がっています。
エントリはベクトルデータベースに保存されます。ベクトルデータベースは、ベクトル表現に応じてサンプルを保存および取得するのに理想的です。

表現をベクトルデータベースに保存することにより、2つのベクトルがどれだけ近いかに応じて同様のページを取得できます。これは、ブラウザが最も関連性の高い結果を取得するために重要です。

cli

ターミナルでクローラーを実行します：

$ python cli_crawl.py --help

options:
  -h, --help            show this help message and exit
  -u INITIAL_URLS [INITIAL_URLS ...], --initial-urls INITIAL_URLS [INITIAL_URLS ...]
  -lm LANGUAGE_MODEL, --language-model LANGUAGE_MODEL
  -m MAX_DEPTH, --max-depth MAX_DEPTH

API

uvicornとFastAPIでAPIをホストします。

uvicorn api_app:app --host 0.0.0.0 --port 80

start_api_and_head_node.shの例をご覧ください。光線ヘッドノードを最初に初期化する必要があることに注意してください。

大きな言語モデル

ユースケースでは、Huggingfaceによって実装されたBertモデルを使用して、Webテキストから埋め込みを抽出します。より正確には、Bert-Base-Uncasedを使用します。コードは不可知論的であり、新しいモデルを登録してコードの数行で追加できることに注意してくださいllm/best.pyをご覧ください。

クロールされたデータを保存します

Milvusをメインデータベース管理者ソフトウェアとして使用しています。ベクトル表現（埋め込み）に基づいてエントリを検索して保存する能力が継承されているため、ベクタースタイルのデータベースを使用します。

Milvus Lite

次のようにスタンドアロンMilvusサーバーを起動しますtmuxなどのマルチプレクサソフトウェアを使用することをお勧めします。

tmux new -s milvus
milvus-server

Milvusへの基本的なリクエストのいくつかを確認するにはscripts/の下をご覧ください。

Dockerは作曲します

公式docker composeテンプレートを使用することもできます。

docker compose --file milvus-docker-compose.yml up -d

並列計算

Rayを使用して、分散処理と並列処理を実行するための優れたPythonフレームワークです。レイはマスターワーカーのパラダイムに従い、 headノードが接続されたワーカーにタスクを実行するように要求します。

レイの頭とワーカーのノードを開始します

ヘッドノード

ヘッドノードをセットアップします

ray start --head

プログラムをヘッドノードに接続します

 import ray

# Connect to the head
ray . init ( "auto" )

レイノードを停止したい場合に備えてください：

ray stop

またはステータスの確認：

ray status

ワーカーノード

ワーカーノードを初期化します

ray start

ヘッドノードは、議論と実装を労働者にシリアル化して送信するため、ワーカーノードはコード実装を使用する必要はありません。

将来の機能

現在の実装はPOCです。多くの改善を行うことができます：

[重要] APIの新しいエントリポイントは、同様のURL指定されたテキストを検索します。
検索とAPIを最適化します。
人気のあるライブラリを使用して、新しいLLMSモデルと新しいチャンキング戦略を追加します。たとえば、Langchain。
ベクターDBにさらに多くの機能を保存すると、おそらく要約を生成します。

貢献

すべての問題とPRが大歓迎ですか？

参照

レイのドキュメント
ミルバス
Fastapi
ハギングフェイス

拡大する

追加情報

バージョン 1.0.0
タイプその他のソースコード
更新時間 2025-05-25
サイズ 15.11KB
から Github

LLMWebCrawler

LLMベースのWeb Crawler

cli

API

大きな言語モデル

クロールされたデータを保存します

Milvus Lite

Dockerは作曲します

並列計算

レイの頭とワーカーのノードを開始します

ヘッドノード

ワーカーノード

将来の機能

貢献

参照

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express