웹 마스터에게 가장 두통을 유발하는 것은 프로그램 및 서버 보안 외에도 컨텐츠를 수집하는 것으로 간주 될 수 있다는 것입니다. 물론 네트워크 자체는 현재 리소스 공유입니다. 나는 여기서 컬렉션의 옳고 그름에 대해 이야기하지 않을 것이지만, 컬렉션 방지에 대한 개인적인 의견에 대해 이야기 할 것입니다.
1. 검색 크롤러를 구별하는 방법
과거에는 인터넷에서 ASP 코드를 사용하여 검색 크롤러를 캡처하고 Crawler의 액세스 레코드를 코드를 통해 파일에 기록하는 것에 대한 코드를 보았습니다. 이 코드를 변경하고 (원래 저자는 알 수 없음) 컬렉션을 방지하기 위해 프로그램에 추가했습니다. 이제 기능으로 만들어지고 페이지에서 직접 호출됩니다.
코드 사본은 다음과 같습니다.
FunctionCheckSearchRobots (searchRobotsagent)
cheeckSearchRobots = false
'사용자 정의 검색 크롤러, 길이로 인해 이것은 주요 국내 검색 엔진의 크롤러 레코드의 일부일뿐입니다.
dimsearchrobots : searchRobots = "baidu@baidu | google@google | crawler@alexa | yahoo@yahoo | sohu@sohu | msn@msn | qihoobot@qihoo"
dimarrsearchrobots, arrsearchrobots2, searchRobotstrue, searchRobotsname, isearchrobots
searchRoboTstrue = false
arrsearchrobots = split (searchRobots, chr (124))
forisearchrobots = 0toubound (arrsearchrobots)
arrsearchrobots2 = split (arrsearchrobots (isearchrobots), "@")
ifinstr (lcase (searchRobotsagent), lcase (arrsearchrobots2 (0))> 0then
searchRobotStrue = true : searchRobotsname = arrsearchRobots2 (1) : exitfor
endif
다음
ifsearchRobotStrueAndlen (searchRobotsName)> 0then'if 그것은 Crawler, Crawler 정보를 업데이트합니다
cheeckSearchRobots = true
endif
최종 기능 장애
위의 코드를 ASP 프로그램에 넣은 다음 (배치 방법에 대한 자세한 내용은 관련 기사를 참조) 전화해야 할 곳을 호출하십시오. ifchecksearchrobots (searchRobotsagent) = falsethen
응답. "검색 엔진이 아닌 부분적으로 제한 될 수 있습니다!" 예를 들어, 정상적인 상황에서는 액세스 속도가 n 회/분입니다. 이 숫자가 초과하면 (특별한 액세스) 제한 될 수 있습니다.