앞에서 언급 한 컬렉션 원칙에서 대부분의 컬렉션 프로그램은 페이징 파일 이름 규칙 분석 및 페이지 코드 규칙 분석과 같은 컬렉션 분석 규칙에 의존한다는 것을 알 수 있습니다.
1. 페이징 파일 이름 모음 방지
대부분의 수집기는 배치 및 다중 페이지 컬렉션을 수행하기 위해 페이징 파일 이름 규칙을 분석하는 데 의존합니다. 다른 사람이 페이징 파일의 파일 이름 규칙을 찾을 수 없다면 다른 사람들은 웹 사이트의 여러 페이지를 배치로 수집 할 수 없습니다.
구현 방법 :
MD5로 페이징 파일 이름을 암호화하는 것이 더 나은 방법이라고 생각합니다. 이에 대해 말하면, 어떤 사람들은 MD5로 페이징 파일 이름을 암호화하면 다른 사람들은 암호화 규칙을 시뮬레이션 하여이 규칙에 따라 페이징 파일 이름을 얻을 수 있다고 말할 것입니다.
내가 지적하고 싶은 것은 페이징 파일 이름을 암호화 할 때 파일 이름을 변경하는 부분을 암호화하지 않는다는 것입니다.
페이지의 페이지 번호를 나타내면 다음과 같이 암호화해서는 안됩니다. page_name = md5 (i, 16) & ". htm"
Page_name = Md5 (I & "하나 또는 여러 글자", 16) & ". htm"과 같이 암호화 할 페이지 번호에서 하나 이상의 문자를 추적하는 것이 가장 좋습니다.
MD5는 해독 할 수 없기 때문에 다른 사람들이 보는 페이지 문자는 MD5 암호화의 결과이므로, Adder는 폭력적인 **** MD5를 사용하지 않는 한 나 이후에 문자가 무엇을 따르는 지 알 수 없지만 현실적이지는 않습니다.
2. 페이지 코드 규칙 수집 방지
콘텐츠 페이지에 코드 규칙이 없으면 다른 사람들은 코드에서 필요한 콘텐츠를 추출 할 수 없습니다. 따라서 수집을 방지하는 단계는 규칙을 자유롭게 만드는 것입니다.
구현 방법 :
상대방이 추출 해야하는 마커를 무작위화합니다.
1. 여러 웹 템플릿을 사용자 정의합니다. 각 웹 템플릿의 중요한 HTML 태그는 다릅니다. 페이지 컨텐츠를 제시 할 때 무작위로 웹 템플릿을 선택하십시오. 일부 페이지는 CSS+DIV가있는 레이아웃이며 일부 페이지는 테이블이있는 레이아웃입니다. 이 방법은 약간 번거 롭습니다. 컨텐츠 페이지의 경우 몇 가지 템플릿 페이지를 더 만들어야합니다. 그러나 방지 방지는 매우 지루한 것입니다. 더 많은 템플릿을 만드는 것은 수집을 방지하는 데 중요한 역할을 할 수 있으며, 이는 많은 사람들에게 가치가 있습니다.
2. 위의 방법이 너무 귀찮은 경우 웹 페이지에서 중요한 HTML 태그를 무작위로 표시하십시오.
웹 템플릿이 많을수록 HTML 코드가 더 임의적입니다. 상대방이 컨텐츠 코드를 분석 할 때 더 많은 문제가 발생합니다. 상대방이 귀하의 웹 사이트에 대한 컬렉션 전략을 작성하면 더 어려울 것입니다. 현재이 사람은 게으르고 다른 사람들의 웹 사이트에서 데이터를 수집하기 때문에 대부분의 사람들은 후퇴 할 것입니다 ~~~ 다시 이야기합시다. 현재 대부분의 사람들은 다른 사람들이 개발 한 컬렉션 프로그램을 사용하여 데이터를 수집합니다. 결국, 데이터를 스스로 수집하기 위해 컬렉션 프로그램을 개발하는 사람들이 몇 명 있습니다.
당신을위한 몇 가지 간단한 아이디어가 있습니다.
1. 클라이언트 스크립트를 사용하여 데이터 수집기에게는 중요하지만 검색 엔진에는 중요하지 않은 컨텐츠를 표시하십시오.
2. 데이터의 한 페이지를 N 페이지로 표시하여 표시 할 수있는 어려움을 증가시키는 방법이기도합니다.