자신의 검색 엔진을 원하십니까? 현재 인기있는 데이터 수집 방법을 사용하여 즉시 가질 수 있습니다. 다음은 단계별로 구현하도록 가르치는 것입니다.
1. Baidu 검색을 이해하십시오
세계 최대의 중국 검색 엔진 인 Baidu Search는 2005 년 8 월 5 일 미국의 NASDAQ에 상장되었습니다. 현재 중국에서 가장 높은 사용자 사용률을 가진 검색 엔진으로 웹 페이지, 뉴스, 그림, 음악,지도 등과 같은 다양한 검색을 제공합니다.
1. Baidu 웹 검색의 쿼리 매개 변수
필요한 매개 변수
☆ wd- 쿼리 용 keyword (키워드)
☆ PN- 결과를 보여주는 페이지의 수
CL-CL- 검색 유형 (클래스), CL = 3은 웹 검색입니다
선택적 매개 변수
RN-- RN- 검색 결과 수 (레코드 오너), 값 범위는 10-100, 기본 설정은 rn = 10입니다.
he- 즉-입력 텍스트의 인코딩 (inputencoding)의 기본 설정은 ie = gb2312이며 중국어를 단순화 한 것입니다.
☆ TN- 검색 요청을 제출하기위한 소스 사이트
몇 가지 유용한 TN
tn = baidulocal은 바이두 사이트에서 검색하면 반환 된 결과가 매우 깨끗하고 광고 간섭이 없음을 의미합니다. 예를 들어, 바이두에서 "행복"을 검색하여 반환 결과가 상쾌한 지 확인하십시오.
tn = baiducnnic은 Baidu를 프레임 워크에 넣고 싶어합니까? 이 매개 변수를 사용해보십시오. CNNIC에 대해 Baidu에 의해 사용자 정의됩니다.
domain 제한된 도메인 이름의 SI-Search. 예를 들어 Sina의 웹 사이트에서 검색하려면 매개 변수 si = sina.com.cn을 사용할 수 있습니다. 이 매개 변수를 효과적으로하려면 CT 매개 변수와 함께 사용해야합니다.
CT-이 매개 변수의 값은 일반적으로 일련의 숫자이며 검색 요청에 대한 확인 코드로 추정됩니다.
예를 들어 Sina.com.cn에서 "이상"을 검색하는 것과 같이 SI 및 CT 매개 변수를 사용하십시오.
☆ BS-- 마지막 검색의 키워드 (BeforeSearch). 관련 검색과 관련이있는 것으로 추정됩니다.
2. Baidu 검색 결과 페이지 구조
소스 코드 구조에 따르면 하향식은 다음과 같습니다.
검색 상자
오른쪽에 뜨거운 지역의 고정 순위
검색 결과
페이지 매김 지역
관련 검색
하단 검색 창
저작권 영역
그중 두 부분 "검색 결과와 페이징 영역"은 우리가 필요한 유효한 데이터입니다. 코드 결과에 따르면 고유 한 문자열 식별자를 찾을 수 있습니다. 이 식별자를 통해 컨텐츠를 가로 채기 만하면됩니다. 자세한 내용은 다음 코드를 참조하십시오.
2. 코어 함수-ASP를 사용한 XMLHTTP 구성 요소
일반적으로 도둑 프로그램으로 알려진 데이터 수집 프로그램은이 XMLHTTP 구성 요소의 핵심 부분입니다. XMLHTTP를 사용하여 데이터를 수집하는 것은 약간 구식이며 온라인 정보도 많이 있습니다. 일반적으로 수집 코드는 다음과 같습니다
setthttp = server.createobject ( "msxml2.xmlhttp")
http.open "get", url, false'open xmlhttp
http.send () '요청을 보냅니다
ifhttp.readystate <> 4then
종료 기능
endif
gethttppage = bytestobstr (http.responsebody, "gb2312") ''결과를 반환하고 바이트 스트림을 문자열로 변환합니다.
setthttp = nothing'release xmlhttp
자세한 응용 프로그램은 아래의 전체 코드를 참조하십시오
3. Complete Code (파일 이름 : searchi_bd.asp)
<%
옵션 출현
Dimwd, Pn
WD = 요청 ( "WD")