ممارسة مشروع الزاحف
يوضح
المدونة الشخصية للمؤلف
مدونة الفلفل المقلي مع وعاء ساخن
جميع المشاريع هي تدريب المؤلفين ومشاركة المشاريع . إذا كان هناك أي انتهاك ، فيرجى الاتصال بنا لحذفه . إنه للتعلم والمشاركة فقط ولا يمكنه تنفيذ أي أنشطة تجارية .
نظرًا لقضايا الوقت في إكمال البرنامج ، قد لا يتم إعادة استخدام بعض المشاريع.
انظر note.txt للحصول على ملاحظات الممارسة
سيتم تحديث هذا المشروع بشكل مستمر
للحصول على بعض التفسيرات العملية للمشروع ، يرجى الرجوع إلى محطة B: https://space.bilibili.com/35242527/channel/collectionDetail؟sid=1590251
فيما يلي التصنيف الشخصي لصعوبة زحف الموقع
| درجة | شعار | وصف صعوبة |
|---|
| بيضة عنكبوت | 0 | ابدء |
| عنكبوت يونغ | 00 | عبر العتبة |
| عنكبوت صغير | * | أساسي |
| عنكبوت كبير | ** | أعلى قليلا من المبتدئين |
| عنكبوت عملاق | *** | صعوبة متوسطة |
| عنكبوت مشع | + | الصعوبة المعتدلة والعليا |
| العنكبوت السام | ++ | أكثر صعوبة |
| ملك العنكبوت | +++ | كارثة |
| روح العنكبوت | ملِك | جحيم |
كتالوج المشروع
الرسم البياني TD ؛
أساسيات-> طلب ؛
الأساسيات-> تحليل HTML والمنظم ؛
الأساسيات-> scrapy ؛
الأساسيات-> زاحف غير متزامن عالي الأداء ؛
الأساسيات-> feapder ؛
الأتمتة-> السيلينيوم
الأتمتة-> الكاتب المسرحي ؛
الفصل المتقدم-حالة شاملة ؛
الفصل المتقدم-> JS عكسي الموضوع ؛
موضوع JS العكسي-> طلب تشفير بيانات رأس أو استجابة ؛
JS عكسي الموضوع-> اكتشاف بصمات الأصابع المتصفح ؛
JS عكسي الموضوع-> مقالة WebPack ؛
JS عكسي الموضوع-> الكشف البيئي ؛
JS عكسي الموضوع-> WASM ؛
رمز التحقق-> شريط التمرير ؛
رمز التحقق-> انقر لتحديد ؛
تحميل مكتبة الطرف الثالث المستخدمة في المشروع
pip install requests # requests库,爬虫的开始
pip install curl_cffi # 标准tls请求库
pip install lxml # xpath提取数据
pip install playwright # 自动化需要
pip install ddddocr # 识别验证码
pip install selenium # 自动化需要,推荐playwright
pip install scrapy # 爬虫框架
pip install " feapder[all] " # 新一代爬虫框架
pip install pycryptodome # python标准密码库
pip install pyexecjs2 # python调用js代码
pip install m3u8 # 下载m3u8视频
pip install prettytable # 格式化输出
pip install tqdm # 进度条
pip install loguru # 强大的日志工具库
pip install retrying # 强大的重试工具
npm install crypto-js/cryptojs # 二选一,js标准密码库
npm install jsdom # js模拟浏览器的dom和bom
npm install tough-cookie # 浏览器cookie
الأساسيات
طلب
| مارك صعوبة | اسم المشروع | تجديد | التنقل السريع |
|---|
| نايت مضيف | صفحة الويب بايدو | أول برنامج زاحف | انقر هنا |
| نايت مضيف | تحديد هوية UA | الزحف العكسي الأولي | انقر هنا |
| نايت مضيف | ترجمة بايدو | تعرف على طلب البريد | انقر هنا |
| نايت مضيف | أفلام دوبان | قاعدة | انقر هنا |
| نايت مضيف | استعلام موقع KFC | ممارسة JSON | انقر هنا |
تحليل HTML والمقالات العادية
| مارك صعوبة | اسم المشروع | تجديد | التنقل السريع |
|---|
| شبه knight | احصل على Fakeua | LXML تحليل | انقر هنا |
| شبه knight | 4K صورة الزحف | LXML وحل مشكلة ترميز الأخطاء | انقر هنا |
| شبه knight | 58 | LXML والترحيل الزحف | انقر هنا |
| شبه knight | أساسيات BS | البكالوريوس الأولي | انقر هنا |
| شبه knight | قضية BS | العملي BS | انقر هنا |
| شبه knight | أساسيات xpath | XPath الأولي | انقر هنا |
| شبه knight | xpath تحليل | ممارسة xpath | انقر هنا |
| شبه knight | الأساسيات العادية | التنظيم الأولي | انقر هنا |
| شبه knight | تمارين منتظمة | القواعد العملية | انقر هنا |
| شبه knight | استئناف الزحف | الشامل الصغير أعلاه | انقر هنا |
Scrapy
| مارك صعوبة | اسم المشروع | تجديد | التنقل السريع |
|---|
| الفارس العظيم | Bossjob | من المستوى 1 صفحة الزحف ، قد لا يكون متاحًا | انقر هنا |
| الفارس العظيم | كرة ملونة مزدوجة | كلها عمليات Scaplations الأساسية | انقر هنا |
| الفارس العظيم | صورة | كلها عمليات Scaplations الأساسية | انقر هنا |
| الفارس العظيم | سياسة أشعة الشمس | كلها عمليات Scaplations الأساسية | انقر هنا |
| الفارس العظيم | يي لبيانات السيارات التي تزحف | مع عكس JS ، إنه مجرد مستوى دخول ، وتحليل بيانات JSON على نطاق واسع | انقر هنا |
| الفارس العظيم | شبكة الجمال المدرسية | كلها عمليات Scaplations الأساسية | انقر هنا |
| الفارس العظيم | أخبار Netease | كلها عمليات Scaplations الأساسية | انقر هنا |
| الفارس العظيم | 17K رواية الزحف | كلها عمليات Scaplations الأساسية | انقر هنا |
زاحف غير متزامن عالية الأداء
| مارك صعوبة | اسم المشروع | تجديد | التنقل السريع |
|---|
| نايت مضيف | قابل القارورة | المعرفة الأساسية | انقر هنا |
| فارس | الأساسيات بركة الموضوع | المعرفة الأساسية | انقر هنا |
| الفارس العظيم | Meinv صورة الدفعة الزحف | قاعدة | انقر هنا |
| الفارس العظيم | صورة المشاهير تزحف | قاعدة | انقر هنا |
| الفارس العظيم | تعدد المهام coroutine | قاعدة | انقر هنا |
| الفارس العظيم | تطبيق تجمع الموضوع | قاعدة | انقر هنا |
feapder
| مارك صعوبة | اسم المشروع | تجديد | التنقل السريع |
|---|
| فارس الغراب | Xiaohongshu جمع البيانات | استخدم وضع Air Mode Feapder لتخصيص خط أنابيب تخزين CSV. في المستقبل ، سيتم إعادة كتابة المزيد من الأوضاع وسيتم إضافة المزيد من الوظائف. نحتاج أيضًا إلى إضافة معلومات إضافية. | انقر هنا |
الأتمتة
السيلينيوم
| مارك صعوبة | اسم المشروع | تجديد | التنقل السريع |
|---|
| نايت مضيف | العملية التلقائية الأساسية | عملية الأتمتة الأساسية | انقر هنا |
| نايت مضيف | تسجيل الدخول المحاكاة | ممارسة الأتمتة | انقر هنا |
| نايت مضيف | سلسلة العمل ومعالجة IFREAM | ممارسة الأتمتة | انقر هنا |
| نايت مضيف | متصفح مقطوع الرأس ومكافحة الكشف | يمارس | انقر هنا |
| فارس | 12306 محاكاة تسجيل الدخول | في الغالب غير متوفر | انقر هنا |
| فارس | damai.com | في الغالب غير متوفر | انقر هنا |
الكاتب المسرحي
| مارك صعوبة | اسم المشروع | تجديد | التنقل السريع |
|---|
| فارس | رمز بريدي | Quep Ques عن الرمز البريدي من خلال العنوان ، واستخدم طريقة التزامن ، بما في ذلك عمليات الانتظار واختيار جداول مختلفة وفقًا للموقف ، واستخدم Pandas للعمل على ملفات Excel في نفس الوقت | انقر هنا |
| الفارس العظيم | مكافحة التزحلق باستخدام المتصفح المحلي | ناكتشف أحيانًا عند استخدام الأتمتة. نستخدم المتصفحات المحلية لمكافحة التزحلق. نظرًا لأنه متصفح محلي ، فإن حالة الجلسة وحالة ملفات تعريف الارتباط كلاهما موجودان. وهذا يعني أننا نصل مباشرة إلى موقع الويب الذي قمنا بتسجيل الدخول إليه ، وهو أكثر ملاءمة بكثير ولا يتطلب منا إنشاء سياق المتصفح. | انقر هنا |
| فارس الأرض | جمع المعلومات | تكمن الصعوبة في أن كل موقع يمتلك أنماط مختلفة ، وجميع البيانات ليست هي نفسها والرقم كبير. من الصعب كتابة قواعد منتظمة ، ومن الصعب أيضًا التعامل مع غير متزامن. يسرد المستودع فقط 10 من الصفحات ، الأمر الذي يتطلب من الكاتب أن يكون له فهم معين للقواعد العادية والكاتب المسرحي غير المتزامن. | انقر هنا |
| الفارس العظيم | متصفح مكافحة الكشف | قم بإنشاء متصفح مكافحة الكشف من خلال ملف JS الخاص بـ Daniu ، والذي يمكنه تجاوز معظم الاكتشافات | انقر هنا |
| فارس الأرض | رواية Qidian VIP تزحف | تجاوز CSS المضادة لروايات كبار الشخصيات Qidian من خلال لقطات الشاشة ، ونقاط المعرفة المستخدمة هي: صناديق تحديد المواقع ، ولقطات الشاشة ، والانزلاق ، والمعالجة ، ودمج لقطات الشاشة. هذا الحل ليس هو الحل الأمثل ، فكل شخص مرحب به للإضافة | انقر هنا |
الفصل المتقدم
حالة شاملة
| مارك صعوبة | اسم المشروع | تجديد | التنقل السريع |
|---|
| فارس | موقع شعر معين | رمز التحقق المتعلق ، حلول رمز التحقق من الصورة --- DDDDOCR | انقر هنا |
| الفارس العظيم | زاحف اللغة | استخدم الإنترنت لتحويل النص إلى لغات ودعم اللغات الصينية والإنجليزية والكورية | انقر هنا |
| الفارس العظيم | ب محطة شاملة | تحقق مما إذا كان المستخدم يعجبك ، وسحب قائمة الرسائل ، وسحب القائمة المتوسطة | انقر هنا |
| فارس الأرض | موقع فيديو | تنزيل فيديو M3U8 ، وحل الموقف باستخدام المفتاح وبدون مفتاح ، و M3U8 على مستوى الدخول ومتعدد الخيوط | انقر هنا |
| فارس الأرض | INS Crawler | لاستخراج معلمة الصفحة وتوحل ملفات JSON | انقر هنا |
| فارس الأرض | Douyin Data Crawl على الموقع بأكمله | بما في ذلك تنزيل صورة الفيديو ، الزحف ، تزحف معلومات المستخدم ... في الوقت الحاضر ، بدأت بعض الواجهات في اكتشاف XB. إذا كنت بحاجة إلى استخدام الواجهة المكتشفة ، فأنت بحاجة إلى إضافة XB للحصول على البيانات. الآن إعادة دمج التوقيع. يمكنك العثور على ملف JS للحصول على التوقيع في GitHub ، ووضعه في نفس الدليل مثل ملف Douyin وتسميته XB.JS. يوفر UP مستودع رمز مفتوح المصدر على Github. يتم وضع علامة على المستودع في الكود ، ويمكن استخدامه في الوقت الحاضر. | انقر هنا |
| فارس الأرض | بيانات Weibo التي تزحف عبر الموقع | بما في ذلك البحث عن المستخدمين ، والبحث عن المنشورات ، وتنزيل التعليقات ، وتنزيل ألبومات المستخدم ، والصفحة الرئيسية للمستخدم ، ومعلومات المستخدم ... | انقر هنا |
| مستوى غير معروف | عجلة الزواحف | شخصيا ، التغليف الثانوي لطرق الزاحف شائعة الاستخدام مريحة للتطوير لاحقًا | انقر هنا |
JS عكسي الموضوع
طلب تشفير بيانات الرأس أو الاستجابة
| مارك صعوبة | اسم المشروع | تجديد | التنقل السريع |
|---|
| فارس | بيانات Nenniu | طلب تشفير الرأس ، تشفير جسم الاستجابة | انقر هنا |
| فارس | مؤشر الترفيه | مقدمة أساسية | انقر هنا |
| فارس | بيانات yien | استجابة تشفير الجسم | انقر هنا |
| فارس | على أي حال تحقق | استجابة تشفير الجسم | انقر هنا |
| الفارس العظيم | FJS المعاملة العامة | تشفير المعلمة المحتضرة | انقر هنا |
| الفارس العظيم | الفن الوحيد | رمز تشغيل JS الديناميكي | انقر هنا |
| فارس الأرض | موقع الطقس | ديناميكي JS المفتاح الديناميكي المعلمة الديناميكية المضادة | انقر هنا |
| فارس الأرض | موقع كرة قدم | تشفير متعدد لجسم الطلب ، من الصعب تحديد موقع الموقع المشفر | انقر هنا |
| فارس الأرض | موسيقى Wangyiyun | تنفيذ البيانات الزحف على الموقع بأكمله | انقر هنا |
| فارس الأرض | معاملة GDS العامة | معلمات مربكة ، تحتاج إلى العثور على مواقع | انقر هنا |
| فارس الأرض | ترجمة معينة | طلب فك تشفير استجابة التشفير ليس بالأمر الصعب | انقر هنا |
| فارس الأرض | تسجيل الدخول على محطة ب | كلمة مرور مشفرة RSA ، يمكن تحديد الجيل الثالث من النقرات النصية ، ويمكن العثور على نقرات النص في قسم رمز التحقق | انقر هنا |
WebPack
| مارك صعوبة | اسم المشروع | تجديد | التنقل السريع |
|---|
| فارس الأرض | المعادن الصين | يمكن تنفيذ PASIC WebPack ، خوارزمية تشفير الإصدار القياسي ، البسيط ، بطرق مختلفة (NodeJs ، Python و Decode) | انقر هنا |
الاختبار البيئي
| مارك صعوبة | اسم المشروع | تجديد | التنقل السريع |
|---|
| فارس الغراب | redbook | الكشف عن البيئة XHS XS ، تحتاج إلى وضع ملفات تعريف الارتباط و LocalStorage في الملف بنفسك | انقر هنا |
| فارس الغراب | Bossjob | __ZP_S ...__ اكتشاف البيئة ، يختلف JS كل يوم ، تحتاج إلى تعويض بعض البيئات ، وتعديل JS ، هناك اكتشاف الوحدة ، إلخ. | انقر هنا |
| فارس الغراب | دراسات رجل القرد 1 2023 | تعديل MD5 و AES بطريقة سحرية لحذف بعض مصهرات العسل وتجديد بيئة المتصفح | انقر هنا |
| فارس الأرض | ele.me المعلمات | احصل على معلمة BX_ET من خلال الكاتب المسرحي | انقر هنا |
| فارس الغراب | PDD's anti_content المعلمة | هذه ليست بيئة تجديد ، ولكن خوارزمية للخصم. من المحتمل أن يكون تشفير PDD هو نفسه في مواقع مختلفة ، وقيم بعض الكائنات مختلفة. الوظائف الرئيسية المشفرة كلها منطقية | انقر هنا |
| فارس الأرض | تحديث عناصر التوظيف المباشر Boss ، انقر لإلغاء حظر IP ، لذلك وجدت للتو واحد عبر الإنترنت | إن تشفير مسار النقر إلى الخضوع هو الجيل الثالث من الاختبار المتطرف | تم تحديثه في ملف BOSS |
تشفير WASM
| مارك صعوبة | اسم المشروع | تجديد | التنقل السريع |
|---|
| فارس الغراب | شركة طيران معينة | محتوى عملية WASM يدرك أن تشفير المعلمات تشفير المعلمات التشفير وفك التشفير. | انقر هنا |
الكشف عن بصمات الأصابع المتصفح
| مارك صعوبة | اسم المشروع | تجديد | التنقل السريع |
|---|
| فارس الأرض | يي جيوبي | أولاً ، هو هيئة الطلب المشفرة ، تليها اكتشاف بصمات الأصابع TLS. حاليًا ، يتم تمرير طلب الصفحة الرئيسية باستخدام مكتبة طرف ثالث. | انقر هنا |
رمز التحقق
شريط التمرير
| مارك صعوبة | اسم المشروع | تجديد | التنقل السريع |
|---|
| الفارس العظيم | JD شريط التمرير | بعد الحصول على الصورة ، يمكننا استخدام DDDDOCR لتحديد شريط التمرير ، ثم إنشاء المسار وإرسال الطلب. المسار هنا كتبه الرئيس. أولاً ، قم بإعداد معيار ، حركه يدويًا من اليسار إلى اليمين ، ثم مسار اهتزاز ، ثم لصق مسارين (لا أعرف لماذا لم يمر المسار الذي أحركه بنفسي ، لذلك استخدمت مسار الرئيس مباشرة) | انقر هنا |
| الفارس العظيم | علي بابا 226 | هذا الكاتب المسرحي في التحديث بسيط نسبيًا | انقر هنا |
| الفارس العظيم | Feigua يحصل على تمرير رمز التحقق | هذا الكاتب المسرحي في التحديث بسيط نسبيًا | انقر هنا |
انقر للاختيار
| مارك صعوبة | اسم المشروع | تجديد | التنقل السريع |
|---|
| فارس الغراب | الجيل الثالث من النقاط للاختيار | نطلب من الواجهة الحصول على الصور بالتسلسل وفقًا لترتيب الطلب ، وبعد الحصول على معلومات الصورة ، نرسلها إلى واجهة التعريف للحصول على الإحداثيات التي تم اختيارها. بعد الحصول على الإحداثيات ، نقوم بتحويل الإحداثيات ونرسلها إلى JS لإنشاء المسار. بعد الحصول على المسار ، نطلب الواجهة للحصول على التحقق من صحة | انقر هنا |
تاريخ النجوم
راعي
إذا كنت تعتقد أن هذا المستودع مفيد لك في تعلم الزواحف والاتجاهات العكسية ، فنحن نرحب بك لرعاية المؤلف واطلب من المؤلف الحصول على كوب من شاي الحليب ~! !
(دعمك يمكن أن يجعل المؤلف سعيدًا طوال اليوم؟)