حالة المشروع: لا يزال تحت التطوير النشط! ومع ذلك ، فإن معظمها قابلة للاستخدام بالفعل. ترحيب اختبار ألفا! احصائيات كاملة على العمل اليومي هنا.
يرجى ملاحظة : هذا هو الريبو الرسمي الجديد للمشروع ، تم الآن إغلاق مستودعات C ++ القديمة و Rust ولم تعد متاحة/صيانة. يرجى استخدام هذا واحد لأي تطور جديد.
The Crowler عبارة عن زاحف على شبكة الإنترنت مفتوحة المصدر وغني بالميزات مصممة مع فلسفة فريدة في جوهرها: أن تكون لطيفًا ومنخفضة الضوضاء. بمعنى آخر ، يحاول Crowler أن يبرز من خلال ضمان الحد الأدنى من التأثير على المواقع التي يزحفها مع زيادة الراحة لمستخدميها.
بالإضافة إلى ذلك ، تم تجهيز النظام بآبار واجهة برمجة التطبيقات ، مما يوفر واجهة مبسطة لاستعلامات البيانات. تضمن هذه الميزة سهلة التكامل والوصول إلى البيانات المفهرسة لمختلف التطبيقات.
تم تصميم Crowler ليكون قائمًا على الخدمات الصغيرة ، بحيث يمكن نشرها بسهولة في بيئة حاوية.
لمزيد من المعلومات حول الميزات ، راجع صفحة الميزات.
تم تصميم Crowler لحل مجموعة من المشكلات حول تزحف الويب واكتشاف المحتوى والكشف عن التكنولوجيا واستخراج البيانات.
على الرغم من أن الهدف الرئيسي هو تمكين المستخدمين الخاصين والمحترفين والمؤسسيين من تطوير حلول اكتشاف المحتوى الخاصة بهم بسرعة ، إلا أنه مصمم أيضًا ليكون قادرًا على زحف الشبكات الخاصة والإنترانت ، حتى تتمكن من استخدامها لإنشاء محرك بحث خاص بك أو شركتك.
علاوة على ذلك ، يمكن استخدامه أيضًا كـ "قاعدة" لأداة أمان عبر الإنترنت أكثر تعقيدًا ، حيث يمكن استخدامها لجمع المعلومات حول موقع الويب وشبكته وأصحابها ونقاط الضعف ، والتي يتم تعرضها للخدمات وما إلى ذلك.
بالنظر إلى أنه يمكن أيضًا استخراج المعلومات ، يمكن استخدامه لإنشاء قواعد المعرفة بالإشارة إلى المصادر ، أو لإنشاء قاعدة بيانات للمعلومات حول موضوع معين.
من الواضح ، يمكن أيضًا استخدامه لإجراء تحليل الكلمات الرئيسية ، والكشف عن اللغة ، وما إلى ذلك. ولكن هذا شيء يمكن استخدام كل زاحف واحد. ومع ذلك ، يتم تنفيذ/تنفيذ جميع الميزات "الكلاسيكية".
The : وضوحا AS / ðə / عندما قبل صوت ثابت ، يبدو مثل "ثوه".
كرو : وضوحا AS /KROʊ /، القوافي مع "معرفة" أو "الثلج".
LER : يتم نطق الجزء الأخير AS /Lər /، على غرار نهاية كلمة "Crawler" أو كلمة "ler" في "Tumbler".
وضع كل شيء معًا ، يبدو مثل " Thuh Kroh-lər "
"إن Crowler ليس مجرد أداة ؛ إنه التزام بالتوحيد الأخلاقي والفعال والفعال على شبكة الإنترنت. سواء كنت تجري البحوث الأكاديمية أو تحليل السوق أو تعزيز موقف الأمن السيبراني الخاص بك ، فإن Crowler يقدم النزاهة والدقة.
انضم إلينا في إعادة تعريف معايير تزحف الويب. استكشف المزيد والمساهمة في رحلة كراولر نحو استكشاف رقمي أكثر احتراماً ورقيًا. "
؟ من الواضح أن هذا يتجاوز القمة قليلاً ، لكنه كان ممتعًا وقررت تضمينه هنا ، فقط للمتعة. راجع للشغل يجعلني سقطت كما أريد أن أضيف:
"... وهناك شيء آخر!" (أتساءل لماذا؟!؟!)؟
تم تصميم Crowler ليكون قائمًا على الخدمات الصغيرة ، لذلك ستحتاج إلى تثبيت ما يلي:
لتثبيت Docker على أساس ، هذا كل ما تحتاجه. إذا كان لديك Docker و Docker مثبتان ، فيمكنك تخطي القسم التالي والانتقال مباشرة إلى قسم التثبيت .
أسهل طريقة لتثبيت Crowler هي استخدام ملف Docker Compose. للقيام بذلك ، اتبع التعليمات هنا.
يرجى ملاحظة (1) : إذا كانت لديك أسئلة حول config.yaml أو env vars ، أو مجموعة القواعد وما إلى ذلك ، يمكنك استخدام GPT chatbot لمساعدتك. ما عليك سوى الانتقال إلى هذا الرابط هنا (إنه متاح بحرية للجميع)
يرجى ملاحظة (2) : إذا كنت تقوم بتشغيل Crowler على Raspberry Pi ، فستحتاج إلى بناء Crowler لمنصة arm64 . للقيام بذلك ، فإن الطريقة الأسهل هي بناء Crowler مع نص docker-build.sh مباشرة على Raspberry Pi.
إذا كنت تخطط بدلاً من ذلك لتثبيت Crowler يدويًا ، فستحتاج إلى تثبيت حاوية Docker التالية:
حاوية postgreSQL
يرجى أيضًا ملاحظة: سيحتاج Crowler إلى بناء صورة VDI الخاصة به ، لذلك ستحتاج إلى إنشاء صورة VDI أيضًا.
إذا كنت ستستخدم جهاز Docker ، فسيتم إنشاء كل شيء تلقائيًا ، كل ما ستحتاج إليه هو اتباع الإرشادات الواردة في قسم التثبيت.
إذا كنت تريد ، بدلاً من ذلك ، أن تبني محليًا على جهازك ، ثم اتبع الإرشادات الواردة في هذا القسم.
لبناء Crowler من المصدر ، ستحتاج إلى تثبيت ما يلي:
ثم ستحتاج إلى استنساخ المستودع وبناء الأهداف التي تحتاجها.
لبناء كل شيء في وقت واحد تشغيل الأمر التالي:
./autobuild.shلبناء أهداف فردية:
أولاً ، تحقق من الأهداف التي يمكن بناؤها ومتاحة ، قم بتشغيل الأمر التالي:
./autobuild name-of-the-target سيؤدي هذا إلى بناء المكون المطلوب في ./bin
./bin/removeSite
./bin/addSite
./bin/addCategory
./bin/api
./bin/thecrowler قم بإنشائها كما تحتاجهم ، أو تشغيل autobuild.sh (بدون حجج) لبناءها جميعًا.
اختياريا يمكنك إنشاء صورة docker ، للقيام بذلك تشغيل الأمر التالي:
docker build -t < image name > .ملاحظة : إذا قمت بإنشاء حاوية Docker محرك Crowler ، تذكر تشغيلها باستخدام أمر Docker التالي (مطلوب!)
docker run -it --rm --cap-add=NET_ADMIN --cap-add=NET_RAW crowler_engineملاحظة مهمة : إذا قمت ببناء من المصدر ، فلا يزال عليك إنشاء صورة Crowler VDI Docker ، فهذا مطلوب لأن Crowler يستخدم مجموعة من الأدوات الخارجية للقيام بعملها وجميع هذه الأدوات تم تجميعها وبناءها في صورة VDI (صورة سطح المكتب الافتراضية).
للحصول على تعليمات حول كيفية استخدامه انظر هنا.
إذا كنت ترغب في استخدام Crowler في الإنتاج ، أوصي باستخدام Docker Compose التثبيت. إنها أسهل طريقة لتثبيتها وهي الأكثر أمانًا.
لتحسين الأمان ، أوصي بشدة بنشر واجهة برمجة التطبيقات في حاوية منفصلة عن Crowler. أيضًا ، ليست هناك حاجة لفضح حاوية Crowler للعالم الخارجي ، وسوف تحتاج إلى تفكير الوصول إلى الإنترنت.
يستخدم التكوين الافتراضي Crowler PostgreSQL كقاعدة بياناته. يتم تخزين قاعدة البيانات في حجم عامل الإرساء ومستمر.
يجب ألا يحتاج DB إلى أي صيانة ، سيهتم Crowler بذلك. في أي وقت لا يوجد نشاط زحف ويتم تمريره لمدة ساعة واحدة من نشاط الصيانة السابق ، سيقوم Crowler بتنظيف قاعدة البيانات وتحسين الفهارس.
تم ترخيص Crowler بموجب ترخيص Apache 2.0. لمزيد من المعلومات ، راجع ملف الترخيص.
إذا كنت ترغب في المساهمة في المشروع ، فيرجى قراءة الملف المساهم.
اعتمد كراولر مدونة قواعد السلوك العهد المساهم. لمزيد من المعلومات ، راجع ملف code_of_conduct.
تم بناء Crowler على رأس الكثير من المشاريع المفتوحة ، وأود أن أشكر جميع المطورين الذين ساهموا في هذه المشاريع. بدونهم ، لن يكون كراولر ممكنًا.
أيضًا ، أود أن أشكر الأشخاص الذين يساعدونني في المشروع ، إما عن طريق المساهمة في الكود ، أو اختباره ، أو عن طريق تقديم التعليقات. شكرا لكم جميعا!
The Crowler هي أداة مصممة لمساعدتك على زحف المواقع بطريقة محترمة. ومع ذلك ، الأمر متروك لك لاستخدامه بطريقة محترمة. كراولر غير مسؤول عن أي سوء استخدام للأداة.