ตัวรวบรวมข้อมูลเว็บที่ปรับขนาดได้นี่คือรายการคุณสมบัติของตัวรวบรวมข้อมูลนี้:
โดยการบันทึกการเป็นตัวแทนลงในฐานข้อมูลเวกเตอร์คุณสามารถดึงหน้าคล้ายกันได้ตามที่เวกเตอร์สองตัวใกล้เคียงกัน นี่เป็นสิ่งสำคัญสำหรับเบราว์เซอร์ในการดึงผลลัพธ์ที่เกี่ยวข้องมากที่สุด
เรียกใช้ Crawler ด้วยเทอร์มินัล:
$ python cli_crawl.py --help
options:
-h, --help show this help message and exit
-u INITIAL_URLS [INITIAL_URLS ...], --initial-urls INITIAL_URLS [INITIAL_URLS ...]
-lm LANGUAGE_MODEL, --language-model LANGUAGE_MODEL
-m MAX_DEPTH, --max-depth MAX_DEPTH โฮสต์ API ด้วย uvicorn และ FastAPI
uvicorn api_app:app --host 0.0.0.0 --port 80 ดูตัวอย่างใน start_api_and_head_node.sh โปรดทราบว่าโหนดหัวเรย์จะต้องเริ่มต้นก่อน
สำหรับกรณีการใช้งานของเราเราใช้โมเดล Bert ที่ใช้โดย HuggingFace เพื่อแยกการฝังตัวจากข้อความเว็บ แม่นยำยิ่งขึ้นเราใช้ Bert-Base-uncased โปรดทราบว่ารหัสเป็นผู้ไม่เชื่อเรื่องพระเจ้าและรุ่นใหม่สามารถลงทะเบียนและเพิ่มด้วยรหัสไม่กี่บรรทัดลองดู llm/best.py
เราใช้ Milvus เป็นซอฟต์แวร์ผู้ดูแลระบบฐานข้อมูลหลักของเรา เราใช้ฐานข้อมูลสไตล์เวกเตอร์เนื่องจากความสามารถที่สืบทอดมาจากการค้นหาและบันทึกรายการตามการเป็นตัวแทนของเวกเตอร์ (EMBEDDINGS)
เริ่มเซิร์ฟเวอร์ Milvus แบบสแตนด์อโลนของคุณดังนี้ฉันขอแนะนำให้ใช้ซอฟต์แวร์มัลติเพล็กเซอร์เช่น tmux :
tmux new -s milvus
milvus-server ดูใต้ scripts/ เพื่อดูคำขอพื้นฐานบางอย่างไปยัง Milvus
นอกจากนี้คุณยังสามารถใช้เทมเพลต docker compose อย่างเป็นทางการ:
docker compose --file milvus-docker-compose.yml up -d เราใช้เรย์เป็นเฟรมเวิร์ก Python ที่ยอดเยี่ยมในการดำเนินการแบบกระจายและการประมวลผลแบบขนาน เรย์ติดตามกระบวนทัศน์ของคนงานหลักซึ่งโหนด head จะของานที่จะดำเนินการกับคนงานที่เชื่อมต่อ
ray start --head import ray
# Connect to the head
ray . init ( "auto" )ในกรณีที่คุณต้องการหยุด Ray Node:
ray stopหรือตรวจสอบสถานะ:
ray statusray startโหนดคนงานไม่จำเป็นต้องมีการใช้งานรหัสเนื่องจากโหนดหัวจะทำให้เป็นอนุกรมและส่งอาร์กิวเมนต์และการใช้งานไปยังคนงาน
การใช้งานปัจจุบันคือ POC สามารถทำการปรับปรุงได้มากมาย:
ยินดีต้อนรับทุกประเด็นและ PRS?.