ดาวน์โหลด LLMWebCrawler - LLMWebCrawler ซอร์สโค้ดดาวน์โหลดดาวน์โหลด

LLMWebCrawler

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

Web Crawler ที่ใช้ LLM

ตัวรวบรวมข้อมูลเว็บที่ปรับขนาดได้นี่คือรายการคุณสมบัติของตัวรวบรวมข้อมูลนี้:

บริการนี้สามารถรวบรวมข้อมูลลิงค์การจัดเก็บเว็บซ้ำได้ซ้ำข้อความและการฝังข้อความที่สอดคล้องกัน
เราใช้โมเดลภาษาขนาดใหญ่ (เช่นเบิร์ต) เพื่อรับข้อความฝังตัวข้อความนั่นคือการแสดงเวกเตอร์ของข้อความที่มีอยู่ในแต่ละ wobiste
บริการสามารถปรับขนาดได้เราใช้ Ray เพื่อกระจายไปทั่วคนงานหลายคน
รายการจะถูกเก็บไว้ในฐานข้อมูลเวกเตอร์ ฐานข้อมูลเวกเตอร์เหมาะอย่างยิ่งในการบันทึกและดึงตัวอย่างตามการแสดงเวกเตอร์

โดยการบันทึกการเป็นตัวแทนลงในฐานข้อมูลเวกเตอร์คุณสามารถดึงหน้าคล้ายกันได้ตามที่เวกเตอร์สองตัวใกล้เคียงกัน นี่เป็นสิ่งสำคัญสำหรับเบราว์เซอร์ในการดึงผลลัพธ์ที่เกี่ยวข้องมากที่สุด

CLI

เรียกใช้ Crawler ด้วยเทอร์มินัล:

$ python cli_crawl.py --help

options:
  -h, --help            show this help message and exit
  -u INITIAL_URLS [INITIAL_URLS ...], --initial-urls INITIAL_URLS [INITIAL_URLS ...]
  -lm LANGUAGE_MODEL, --language-model LANGUAGE_MODEL
  -m MAX_DEPTH, --max-depth MAX_DEPTH

API

โฮสต์ API ด้วย uvicorn และ FastAPI

uvicorn api_app:app --host 0.0.0.0 --port 80

ดูตัวอย่างใน start_api_and_head_node.sh โปรดทราบว่าโหนดหัวเรย์จะต้องเริ่มต้นก่อน

รูปแบบภาษาขนาดใหญ่

สำหรับกรณีการใช้งานของเราเราใช้โมเดล Bert ที่ใช้โดย HuggingFace เพื่อแยกการฝังตัวจากข้อความเว็บ แม่นยำยิ่งขึ้นเราใช้ Bert-Base-uncased โปรดทราบว่ารหัสเป็นผู้ไม่เชื่อเรื่องพระเจ้าและรุ่นใหม่สามารถลงทะเบียนและเพิ่มด้วยรหัสไม่กี่บรรทัดลองดู llm/best.py

การบันทึกข้อมูลที่รวบรวมข้อมูล

เราใช้ Milvus เป็นซอฟต์แวร์ผู้ดูแลระบบฐานข้อมูลหลักของเรา เราใช้ฐานข้อมูลสไตล์เวกเตอร์เนื่องจากความสามารถที่สืบทอดมาจากการค้นหาและบันทึกรายการตามการเป็นตัวแทนของเวกเตอร์ (EMBEDDINGS)

Milvus Lite

เริ่มเซิร์ฟเวอร์ Milvus แบบสแตนด์อโลนของคุณดังนี้ฉันขอแนะนำให้ใช้ซอฟต์แวร์มัลติเพล็กเซอร์เช่น tmux :

tmux new -s milvus
milvus-server

ดูใต้ scripts/ เพื่อดูคำขอพื้นฐานบางอย่างไปยัง Milvus

นักเทียบท่า

นอกจากนี้คุณยังสามารถใช้เทมเพลต docker compose อย่างเป็นทางการ:

docker compose --file milvus-docker-compose.yml up -d

การคำนวณแบบขนาน

เราใช้เรย์เป็นเฟรมเวิร์ก Python ที่ยอดเยี่ยมในการดำเนินการแบบกระจายและการประมวลผลแบบขนาน เรย์ติดตามกระบวนทัศน์ของคนงานหลักซึ่งโหนด head จะของานที่จะดำเนินการกับคนงานที่เชื่อมต่อ

เริ่มหัวและโหนดคนงานในเรย์

โหนดหัว

ตั้งค่าโหนดหัว

ray start --head

เชื่อมต่อโปรแกรมของคุณกับโหนดหัว

 import ray

# Connect to the head
ray . init ( "auto" )

ในกรณีที่คุณต้องการหยุด Ray Node:

ray stop

หรือตรวจสอบสถานะ:

ray status

โหนดคนงาน

เริ่มต้นโหนดคนงาน

ray start

โหนดคนงานไม่จำเป็นต้องมีการใช้งานรหัสเนื่องจากโหนดหัวจะทำให้เป็นอนุกรมและส่งอาร์กิวเมนต์และการใช้งานไปยังคนงาน

คุณสมบัติในอนาคต

การใช้งานปัจจุบันคือ POC สามารถทำการปรับปรุงได้มากมาย:

[สำคัญ] จุดเข้าใช้ใหม่ใน API เพื่อค้นหา URL ที่คล้ายกัน
เพิ่มประสิทธิภาพการค้นหาและ API
การเพิ่มโมเดล LLMS ใหม่และกลยุทธ์การจดบันทึกใหม่ด้วยห้องสมุดยอดนิยมเช่น Langchain
การจัดเก็บคุณสมบัติเพิ่มเติมใน DB เวกเตอร์อาจสร้างบทสรุป