learning_spider
1.0.0
이 프로젝트는 주로 세 부분으로 나뉩니다
| 어려움 | 콘텐츠 | 정보 | 방법 | 어려움 |
|---|---|---|---|---|
| 베이스 | 다양한 라이브러리의 간단한 사용 | 기본 사용법 | 문서 쓰기 데모보기 | |
| 시작하기 | Maoyan 영화 순위 상위 100 명 | 정적 웹 페이지 | 요청 | |
| 아마존 차이나 몰 검색 페이지 | 정적 웹 페이지 | 요청 | ||
| 오늘의 헤드 라인 검색 결과 | 동적 웹 페이지 | 요청 | ||
| Weibo 모바일 사용자 동적 정보 | 동적 웹 페이지 | 요청 | regon_id 매개 변수의 위치 | |
| Bilibili Observer는 동일한 지수를 봅니다 | 동적 웹 페이지 | 요청 | 압축 지수 데이터의 복원 | |
| 가장 쉬운 슬라이더 검증 코드 | 동적 웹 페이지 | 셀렌 | 슬라이더 이동 | |
| 단순한 | 특정 라우터의 비밀번호 암호화 방법 | 단일 JS 파일 | 암호화 기능을 찾고 있습니다 | |
| 무제한 디버거 처리 | 동적 웹 페이지 | 재확인 | 방지 방지 | |
| Aaencode 암호 해독 | 동적 웹 페이지 | DevTool | 인코딩 암호화 | |
| CSS 요소 절대 포지셔닝 리버스 크롤링 | 정적 웹 페이지 | pyppeteer | 요소 순서를 복원하십시오 | |
| CSS 의사 학급 반 크롤링 | 정적 웹 페이지 | 요청 | 의사 클래스 컨텐츠를 복원하십시오 | |
| 58.com 브랜드 아파트 | 정적 웹 페이지 | 요청 | 정적 글꼴 암호화 | |
| Anjuke 지문 연구 | 단일 JS 파일 | DevTool | 수집 된 정보의 중요성을 연구하고 이해합니다 | |
| 일반적으로 | Zhihu 기사 정보 | 동적 웹 페이지 | 요청 | 헤더`x-zse-86` 매개 변수 암호화 시간 기반 방지 방지 방지 |
| China_CN 글꼴 암호화 처리 | 동적 웹 페이지 | FontTool | 동적 글꼴 암호화 처리 | |
| 바이두 코드 처리 | 단일 JS 파일 | @bebel | 다양한 복원 플러그인 작성 | |
| 난독 화 코드 처리를 가속화합니다 | 설정 쿠키 차단 | @bebel | OB 난독 화 코드 복원 | |
| 어려운 | Carbosynch는 사진을 캡처합니다 | 간단한 TLS 지문 | 기본 보안 구성 요소 구성을 수정하십시오 | TLS를 이해하십시오 |
웹 사이트 URL (녹음) : http://learnspider.evilreclose.top/
| 유형 | 어려움 | 이름 | 정보 |
|---|---|---|---|
| 슬라이더 검증 | 시작하기 | 가장 쉬운 슬라이더 검증 | 슬라이더를 드래그하고 끝까지 미끄러지면 감지없이 통과 할 수 있습니다. |
| 단순한 | Slidercaptcha | 기본 설정이 배포되고 기본적인 휴먼 머신 검증이 존재하며 일정한 속도 풀/선형 풀이 검증이 전달되지 않습니다. | |
| CSS 반 크롤링 | 시작하기 | 절대 포지셔닝 리버스 크롤링 | 데이터를 HTML로 분산시킨 후 절대 포지셔닝의 특성을 사용하여 조정을 통해 뷰가 복원됩니다. |
| 단순한 | 유사 사고 | 데이터를 표시 할 수있는 의사 클래스 컨텐츠의 특성을 사용하여 콘텐츠에 일부 데이터를 표시합니다. | |
| 일반적으로 | 휴식 글꼴 암호화 | 일부 유니 코드 텍스트가 사용자 정의 글꼴 구문 분석을 사용하여 표준 유니 코드 구문 분석을 사용하는 사람들이 데이터를 올라갈 수 없으며 단일 액세스 프로세스 중에는 글꼴이 변경되지 않습니다. | |
| JS 반 크롤링 | 시작하기 | 방지 방지 | 시간이 정한 스타트 업/넥 디버거를 사용하여 브라우저를 종료 할 수없는 디버그 상태에 유지하십시오. |
| 단순한 | 디버깅을 비활성화합니다 | 코드 작성은 브라우저 콘솔의 개방을 금지합니다 | |
| 단순한 | Aaencode | 공통 문자를 이모티콘 문자로 교체하여 읽기가 어렵습니다. | |
| 단순한 | jsfuck | 가장 일반적인 문자를 여러 기본 문자로 교체하여 읽기가 어렵습니다. | |
| 데이터 암호화 | 일반적으로 | AES 대칭 암호화 | 전송 된 데이터를 암호화합니다 |
| 일반적으로 | Custom Base64 코드 테이블 암호화 | 전송 된 데이터를 암호화합니다 | |
| 지문 리버스 크롤링 | 단순한 | 가장 쉬운 셀레늄 인식 | 두 가지 변수를 자동으로 생성하도록 확인하십시오 |
| 사용 | 정보 | |
|---|---|---|
| 사양 | 나머지 | 표준 API, 표준 응답 |
| cdn | bootcdn.cn | 무료 프론트 엔드 오픈 소스 프로젝트 CDN 가속 서비스 |
| 프론트 엔드 | jQuery 2.2.4 | 빠르고 간결한 JavaScript 프레임 워크 |
| 실현 | 재료 설계를 기반으로 한 프론트 엔드 반응 프레임 워크 | |
| 트위터-부트 스트랩 3.4.1 | 트위터의 프론트 엔드 개발을위한 오픈 소스 툴킷 | |
| 글꼴이 좋은 4.7.0 | 아이콘 글꼴 라이브러리 세트 및 CSS 프레임 워크 | |
| Metismenu 3.0.6 | 바닐라 -JS 붕괴 메뉴 플러그인 | |
| 프록시 서버 | nginx | 고성능 HTTP/리버스 프록시 서버 |
| 웹 서버 | uwsgi | 웹 서버 |
| 후단 | 플라스크 1.1.2 | 파이썬 가벼운 웹 프레임 워크 |
| Flask-Restful 0.3.8 | REST API의 빠른 생성을 지원하는 플라스크 플러그인 |
| 도구/스크립트 제조 | |||
|---|---|---|---|
| 콘텐츠 | 정보 | ||
| 자동 DL 크롬 와우 드라이버 | Windows에서는 Selenium Chromewebdriver 스크립트를 자동으로 다운로드하여 레지스트리에서 Chrome 버전 정보를 얻고 Google에서 가장 일관된 웹 드라이버를 다운로드하여 Selenium이 정상적으로 실행할 수 있도록합니다. (실제로 서버에 Docker를 배포하고 Selenium의 이미지를 끌어 당긴 다음 배포하고 원격으로 호출하는 것이 좋습니다). | ||
| 소음 | 셀레늄을 사용하여 크롤링 할 때 발생할 일반적인 문제를 처리하기 위해 층이 셀레늄에 캡슐화됩니다. | ||
| @Babel/Traverse API 문서 | 바벨/트래버스 API 문서의 내용과 그 자체로 작성된 사용 사례는 다른 창고로 전송되었습니다. Babel 공무원은 Babel/Traverse 문서를 제공하지 않기 때문에 컨텐츠를 녹음하고 소스 코드 컨텐츠에 따라 자체적으로 이해/쓸 수 있습니다. 오류가있을 수 있습니다. 수정 해주세요. | ||
| 글꼴 암호화 형사 | OCR을 기반으로 한 Defont 암호화 스크립트 | ||
2021 년 11 월 7 일