السادس والعشرون
XXL-Crawler ، إطار زاحف ويب موزع.
-الصفحة الرئيسية-
مقدمة
XXL-Crawler هو إطار زاحف ويب موزع. يقوم سطر واحد من الكود بتطوير زاحف موزع. ميزات مثل "Proxy Multithed ، غير متزامن ، ديناميكي IP ، موزعة ، جافا سكريبت".
XXL-Crawler هو إطار زاحف موزع. قم بتطوير زاحف موزعة مع سطر واحد من التعليمات البرمجية ، والذي يحتوي على خصائص "الوكيل الديناميكي غير المتزامن ، غير المتزامن ، IP ، الموزعة ، JS" والميزات الأخرى ؛
الوثائق
سمات
- 1. موجزة: واجهة برمجة التطبيقات بديهية وموجزة ، ويمكن أن تبدأ بسرعة ؛
- 2. الوزن الخفيف: يعتمد التنفيذ الأساسي فقط على JSoup ، وهو أمر بسيط وفعال ؛
- 3. وحدات: التصميم الهيكلي المعياري ، سهل التوسع
- 4. الموجهة نحو الكائن: يدعم رسم خرائط سهلة لبيانات الصفحة إلى كائنات PageVo من خلال التعليقات التوضيحية ، وتشمل الطبقة الأساسية تلقائيًا استخراج البيانات وإرجاع تغليف كائنات Pagevo ؛ تدعم صفحة واحدة استخراج Pagevos واحد أو أكثر.
- 5. متعدد الخيوط: قم بتشغيل تجمع الخيوط لتحسين كفاءة التجميع ؛
- 6. الدعم الموزع: يمكن تحقيق موزع عن طريق توسيع وحدة "RunData" والدمج بين بيانات التشغيل المشتركة Redis أو DB. يتم توفير الزاحف المستقلة المحليين بشكل افتراضي.
- 7. JS Rendering: من خلال توسيع وحدة "Pageloader" ، فإنه يدعم عملية الاستحواذ على بيانات تقديم JS الديناميكية. NANE ، فهو يوفر JSOUP (عرض غير JS ، أسرع) ، HTMLUNIT (JS Rendering) ، selenium+phantomjs (JS Rendering ، التوافق العالي) ، والتطبيقات الأخرى ، ودعم التوسع المجاني للتطبيقات الأخرى.
- 8. فشل إعادة المحاولة: إعادة المحاولة بعد فشل الطلب ، ويدعم تحديد عدد أوقات إعادة المحاولة ؛
- 9. وكيل IP: قواعد سياسة مكافحة الاستحواذ WAF ؛
- 10. الوكيل الديناميكي: يدعم التعديل الديناميكي لمتجمعات الوكيل في وقت التشغيل وتخصيص سياسات توجيه تجمع الوكيل ؛
- 11. غير متزامن: يدعم طريقتين لتشغيل بشكل متزامن وغير متزامن ؛
- 12. نشر الموقع بأكمله: دعم انتشار وزراعة الموقع بأكمله من عنوان URL الحالي كنقطة انطلاق ؛
- 13. إلغاء التكلفة: منع الزحف المتكرر ؛
- 14. قائمة URL ذات القائمة البيضاء: يدعم تعيين قواعد القائمة البيضاء وتصفية عناوين URL ؛
- 15. معلومات الطلب المخصص ، مثل: معلمات الطلب ، ملفات تعريف الارتباط ، رأس ، استطلاع المستخدم ، المرجع ، إلخ ؛
- 16. المعلمات الديناميكية: دعم التعديل الديناميكي لمعلمات الطلب أثناء وقت التشغيل ؛
- 17. التحكم في المهلة: دعم تعيين وقت المهلة لطلب الزاحف ؛
- 18. وقفة نشطة: يتوقف مؤشر ترابط الزاحف بنشاط بعد معالجة الصفحة لتجنب الاعتراض بشكل متكرر ؛
تواصل
المساهمة
المساهمات مرحب بها! افتح طلب سحب لإصلاح خطأ ، أو فتح مشكلة لمناقشة ميزة أو تغيير جديد.
مرحبًا بك في المشاركة في مساهمة المشروع! على سبيل المثال ، أرسل العلاقات العامة لإصلاح خطأ ، أو إنشاء مشكلة جديدة لمناقشة ميزات أو تغييرات جديدة.
تسجيل الوصول
لمزيد من الشركات التي تصل ، يرجى التسجيل على عنوان التسجيل. التسجيل هو فقط للترويج للمنتج.
حقوق الطبع والنشر والترخيص
هذا المنتج مفتوح المصدر ومجاني ، وسيستمر في توفير الدعم الفني للمجتمع المجاني. المستخدمون الفرديون أو المؤسسات أحرار في الوصول والاستخدام.
- مرخصة بموجب ترخيص Apache ، الإصدار 2.0.
- حقوق الطبع والنشر (C) 2015-الحاضر ، Xuxueli.
المنتج مفتوح المصدر ومجاني ، وسيستمر تقديم الدعم الفني المجاني للمجتمع. الوصول المجاني والاستخدام داخل الأفراد أو المؤسسات.
يتبرع
بغض النظر عن المبلغ يكفي للتعبير عن تفكيرك ، شكرًا جزيلاً لك :) للتبرع
بغض النظر عن مقدار المبلغ ، يكفي التعبير عن مشاعرك. شكرا جزيلا لك :) اذهب للتبرع