웹 수집 프로그램? 웹 크롤러? Xiaolun 프로그램? 당신이 무엇을 부르든, 이런 종류의 프로그램은 널리 사용됩니다. 이 기사는이 프로그램의 사용으로 인한 저작권 또는 도덕적 문제에 대해 논의하지 않지만 ASP+vbscript 환경 에서이 프로그램의 구현에 대해서만 논의합니다.
준비 지식 : 일반 ASP+VBScript 지식 외에도 XMLHTTP 객체 및 정규 표현 객체를 이해해야합니다. XMLHTTP 객체는 현재 각광을 받고있는 Ajax의 주인공입니다. 그리고 정규 표현을 배운 후에는 더 이상 복잡한 문자열을 다루는 것에 대해 걱정할 필요가 없습니다.
정규식 가제트는 정규 표현을 작성하고 디버깅 할 때 매우 유용합니다.
목차
원격 웹 페이지를 크롤링하고 로컬로 저장하십시오
개선 : garbled 코드를 처리합니다
원격 웹 페이지의 사진 (및 기타 파일)을 동시에 다운로드
개선 : 실제 URL 감지
개선 : 반복 된 다운로드를 피하십시오
실제 사례 (예를 들어 **** 복용)
분석 목록 페이지
컨텐츠 페이지 팁
콘텐츠 페이지의 다음 페이지, 다음 페이지 분석
고급 주제 : UTF-8 및 GB2312 변환
보다 진보 된 주제 : 로그인 후 크롤링, 클라이언트 위조
당신이 가진 수집 절차
원본 링크 : http://gwx.showus.net/blog/article.asp?id=229
1. 원격 웹 페이지를 크롤링하고 로컬로 저장하십시오.
'디버깅을 위해 중간 결과는 나중에 여러 번 확인됩니다.
Dimindebug : Indebug = true
subd (str)
ifindebug = falsethenexitsub
response.write ( "<divstyle = 'color :#003399; 경계 : solid1px#003399; 배경 :#eef7ff; 마진 : 1px; font-size : 12px; 패딩 : 4px;'>")
response.write (str & "</div>")
응답. 플러시 ()
Endsub
'프로세스 : Save2File
'기능 : 텍스트 또는 바이트 스트림을 파일로 저장합니다
'매개 변수 : 컨텐츠를 저장하기위한 Scontent
'sfile은 "files/abc.htm"과 같은 파일에 저장됩니다.
'텍스트는 텍스트 여부입니다
'쓰기 기존 파일을 덮어 쓰십시오
subsave2file (Scontent, Sfile, Btext, Boverwrite)
calld ( "save2file :"+sfile+"*텍스트 여부 :"& btext)
DimsaveOption, TypeOption
if (boverwrite = true) thensaveoption = 2elsesaveOption = 1
if (btext = true) thentypeoption = 2elsetypeoption = 1입니다
setads = server.createobject ( "adodb.stream")
Withads
.type = typeoption
.열려 있는
if (btext = true) then.writetextscontentelse.writeContent