Vous voulez avoir votre propre moteur de recherche? En utilisant les méthodes d'acquisition de données actuellement populaires, vous pouvez les avoir immédiatement. Voici un enseignement pour le mettre en œuvre étape par étape.
1. Comprendre la recherche de baidu
Baidu Search, le plus grand moteur de recherche chinois du monde, a été répertorié sur le NASDAQ aux États-Unis le 5 août 2005. Il s'agit actuellement du moteur de recherche avec le taux d'utilisation le plus élevé en Chine, fournissant diverses recherches telles que des pages Web, des nouvelles, des images, de la musique, des cartes, etc.
1. Paramètres de requête pour la recherche Web Baidu
Paramètres requis
☆ WD - Mot de clé pour la requête (mot-clé)
☆ PN - Nombre de pages montrant le résultat (PageNumber)
☆ CL - Type de recherche (classe), cl = 3 est la recherche Web
Paramètres facultatifs
☆ RN - Le nombre de résultats de recherche (enregistrement record), la plage de valeur se situe entre 10 et 100, le paramètre par défaut est RN = 10
☆ ie - Quey le codage du texte d'entrée (entrée encoding), le paramètre par défaut est ie = gb2312, qui est un chinois simplifié
☆ TN - Le site source pour soumettre une demande de recherche
Plusieurs TN utiles
tn = baidualocal signifie que les recherches sur le site de Baidu, les résultats retournés sont très propres et il n'y a pas d'interférence AD. Par exemple, recherchez "Happy" sur Baidu pour voir si le résultat de retour est rafraîchissant.
tn = baiducnnic veut mettre Baidu dans le cadre? Essayez simplement ce paramètre, il est personnalisé par baidu pour cnnic
☆ SI- SECTURE DANS LES NOM DE DOMAINS LIMITÉS. Par exemple, si vous souhaitez rechercher sur le site Web de Sina, vous pouvez utiliser le paramètre si = sina.com.cn. Pour rendre ce paramètre efficace, vous devez l'utiliser en conjonction avec le paramètre CT.
☆ CT - La valeur de ce paramètre est généralement une chaîne de nombres, qui est estimée comme le code de vérification de la demande de recherche.
Utilisez des paramètres SI et CT en combinaison, par exemple, à la recherche de "idéal" dans sina.com.cn, disponible: http://www.baidu.com/baidu?ie=utf-8&am...n&cl=3&word=IDEAL
☆ BS - Le mot-clé de la dernière recherche (beforesearch), qui est estimé comme lié aux recherches connexes.
2. Structure de la page de résultats de la recherche de Baidu
Selon la structure du code source, le haut de gamme est:
Recherche de recherche
Classement fixe des zones chaudes à droite
Résultats de la recherche
Zone de pagination
Recherches connexes
Boîte de recherche inférieure
Zone de droit d'auteur
Parmi eux, les deux parties «résultats de recherche et zone de pagination» sont les données valides dont nous avons besoin. Selon les résultats du code, vous pouvez trouver son identifiant de chaîne unique. Interceptez simplement le contenu via cet identifiant. Pour plus de détails, regardez le code suivant.
2. Fonction de base - composant xmlhttp à l'aide d'ASP
Le programme de collecte de données, communément appelé programme Thief, est la partie fondamentale de ce composant XMLHTTP. Il est un peu démodé d'utiliser XMLHTTP pour collecter des données, et il y a aussi beaucoup d'informations en ligne. Généralement, le code de collecte est
setThttp = server.createObject ("msxml2.xmlhttp")
Http.open "get", url, false open xmlhttp
Http.send () 'Envoyer une demande
ifhttp.readystate <> 4Then
sortie
endire
GethTTPPAGE = BYTESTOBSTR (Http.ResponseBody, "GB2312") 'Renvoie le résultat (généralement un flux d'octets) et convertit le flux d'octets en une chaîne
setTHTP = rien
Voir le code complet ci-dessous pour une application détaillée
3. Code complet (nom de fichier: seardi_bd.asp)
<%
option Explicit
Dimwd, pn
wd = request ("wd")