زاحف ويب قابل للتطوير ، هنا قائمة بميزة هذا الزاحف:
من خلال حفظ التمثيل في قاعدة بيانات المتجهات ، يمكنك استرداد صفحات مماثلة وفقًا لمدى قرب المتجهات. هذا أمر بالغ الأهمية بالنسبة للمتصفح لاسترداد النتائج الأكثر صلة.
قم بتشغيل الزاحف مع المحطة:
$ python cli_crawl.py --help
options:
-h, --help show this help message and exit
-u INITIAL_URLS [INITIAL_URLS ...], --initial-urls INITIAL_URLS [INITIAL_URLS ...]
-lm LANGUAGE_MODEL, --language-model LANGUAGE_MODEL
-m MAX_DEPTH, --max-depth MAX_DEPTH استضافة API مع uvicorn و FastAPI .
uvicorn api_app:app --host 0.0.0.0 --port 80 ألقِ نظرة على المثال في start_api_and_head_node.sh . لاحظ أنه يجب تهيئة عقد رأس الشعاع أولاً.
لحالة الاستخدام لدينا ، نستخدم ببساطة نموذج BERT الذي تم تنفيذه بواسطة Huggingface لاستخراج التضمين من نص الويب. بتعبير أدق ، نستخدم Bert-Base-uncs. لاحظ أن الرمز لاأدري ، ويمكن تسجيل نماذج جديدة وإضافتها مع أسطر قليلة من التعليمات البرمجية ، وإلقاء نظرة على llm/best.py .
نستخدم Milvus كبرنامج مسؤول قاعدة البيانات الرئيسي لدينا. نستخدم قاعدة بيانات على غرار المتجه بسبب قدرتها الموروثة على البحث وحفظ الإدخالات بناءً على تمثيلات المتجهات (التضمين).
ابدأ خادم Milvus المستقل الخاص بك على النحو التالي ، أقترح استخدام برنامج متعدد الإرسال مثل tmux :
tmux new -s milvus
milvus-server ألقِ نظرة تحت scripts/ لرؤية بعض الطلبات الأساسية إلى Milvus.
يمكنك أيضًا استخدام قالب docker compose الرسمي:
docker compose --file milvus-docker-compose.yml up -d نحن نستخدم Ray ، هو إطار Python الرائع لتشغيل المعالجة الموزعة والموازاة. يتبع راي نموذج العامل الرئيسي ، حيث ستطلب عقدة head مهام تنفيذها للعمال المتصلين.
ray start --head import ray
# Connect to the head
ray . init ( "auto" )في حال كنت ترغب في إيقاف Ray Node:
ray stopأو التحقق من الحالة:
ray statusray startلا تحتاج عقدة العامل إلى تطبيق الكود حيث أن عقدة الرأس ستقوم بتسلسل الحجج والتنفيذ للعمال.
التنفيذ الحالي هو POC. يمكن إجراء العديد من التحسينات:
جميع القضايا و PRS موضع ترحيب؟.