¿Quieres tener tu propio motor de búsqueda? Utilizando los métodos de adquisición de datos actualmente populares, puede tenerlos de inmediato. Aquí hay una enseñanza para implementarlo paso a paso.
1. Comprender la búsqueda de Baidu
Baidu Search, el motor de búsqueda chino más grande del mundo, figuraba en el NASDAQ en los Estados Unidos el 5 de agosto de 2005. Actualmente es el motor de búsqueda con la tasa de uso de los usuarios más alta en China, proporcionando diversas búsquedas, como páginas web, noticias, imágenes, música, mapas, etc.
1. Parámetros de consulta para la búsqueda web de Baidu
Parámetros requeridos
☆ WD-Keyword para consulta (palabra clave)
☆ PN-Number of Pages que muestran el resultado (PageNumber)
☆ CL-Tipo de búsqueda (clase), CL = 3 es Web Search
Parámetros opcionales
☆ RN-El número de resultados de búsqueda (RegyNumber), el rango de valor es entre 10 y 100, la configuración predeterminada es RN = 10
☆ IE-QUERY La codificación del texto de entrada (inputencoding), la configuración predeterminada es, es decir, GB2312, que es chino simplificado
☆ TN-El sitio fuente para enviar la solicitud de búsqueda
Varios TNS útiles
TN = Baidulocal significa que las búsquedas en el sitio de Baidu, los resultados devueltos son muy limpios y no hay interferencia publicitaria. Por ejemplo, busque "feliz" en Baidu para ver si el resultado de retorno es refrescante.
TN = Baiducnnic quiere poner a Baidu en el marco? Solo prueba este parámetro, es personalizado por Baidu para CNNIC
☆ SI-SIVEH en nombres de dominio limitado. Por ejemplo, si desea buscar en el sitio web de Sina, puede usar el parámetro si = sina.com.cn. Para que este parámetro sea efectivo, debe usarlo junto con el parámetro CT.
☆ CT: el valor de este parámetro es generalmente una cadena de números, que se estima en el código de verificación para la solicitud de búsqueda.
Use parámetros SI y CT en combinación, por ejemplo, buscando "ideal" en sina.com.cn, disponible: http://www.baidu.com/baidu?ie=utf-8&am...n&cl=3&word=ideal
☆ BS-La palabra clave de la última búsqueda (BefefefefefeSearch), que se estima relacionada con búsquedas relacionadas.
2. Estructura de la página de resultados de búsqueda de Baidu
De acuerdo con la estructura del código fuente, el de arriba hacia abajo es:
Caja de búsqueda
Ranking fijo de áreas calientes a la derecha
Resultados de la búsqueda
Área de paginación
Búsquedas relacionadas
Cuadro de búsqueda inferior
Área de derechos de autor
Entre ellos, las dos partes "resultados de búsqueda y área de paginación" son los datos válidos que necesitamos. Según los resultados del código, puede encontrar su identificador de cadena único. Simplemente intercepte el contenido a través de este identificador. Para más detalles, mire el siguiente código.
2. Función central-componente XMLHTTP usando ASP
El programa de recopilación de datos, comúnmente conocido como Thief Program, es la parte central de este componente XMLHTTP. Es un poco anticuado usar XMLHTTP para recopilar datos, y también hay mucha información en línea. En general, el código de recopilación es
setThttp = server.createObject ("msxml2.xmlhttp")
Http.open "Get", URL, falso'open xmlhttp
Http.send () 'Enviar una solicitud
ifhttp.readyState <> 4then
extinción
endif
gethttppage = bytestobstr (http.ResponseBody, "GB2312") 'Devuelve el resultado (generalmente una corriente de byte) y convierte la corriente de byte en una cadena
setThttp = Nothing'ReLease xmlhttp
Consulte el código completo a continuación para una aplicación detallada
3. Código completo (nombre del archivo: Searchi_bd.asp)
<%
opcionExpliCit
Dimwd, PN
wd = request ("wd")