Möchten Sie Ihre eigene Suchmaschine haben? Mit den derzeit beliebten Datenerfassungsmethoden können Sie sie sofort durchführen. Hier ist ein Lehren Sie, es Schritt für Schritt zu implementieren.
1. Verstehen Sie Baidu -Suche
Die Baidu -Suche, die weltweit größte chinesische Suchmaschine, wurde am 5. August 2005 auf der NASDAQ in den USA aufgeführt. Derzeit ist es die Suchmaschine mit der höchsten Nutzungsnutzungsrate in China und bietet verschiedene Suchanfragen wie Webseiten, Nachrichten, Bilder, Musik, Karten usw.
1. Abfrageparameter für die Baidu -Websuche
Erforderliche Parameter
☆ WD-Keeword für Abfrage (Schlüsselwort)
☆ pn-nummer von Seiten, die das Ergebnis zeigen (Pagenumber)
☆ Cl-Suchentyp (Klasse), CL = 3 ist die Websuche
Optionale Parameter
☆ RN-Die Anzahl der Suchergebnisse (RecordNumber), der Wertebereich zwischen 10 und 100, die Standardeinstellung beträgt RN = 10
☆ dh-qualifiziert die Codierung des Eingabentext
☆ TN-Die Quellstelle zum Senden von Suchanforderungen
Mehrere nützliche TNs
TN = Baidulocal bedeutet, dass die Suche auf der Baidu -Site, die zurückgegebenen Ergebnisse sehr sauber sind und keine Anzeigenstörungen vorhanden sind. Suchen Sie beispielsweise auf Baidu nach "Happy", um festzustellen, ob das Rückgabeergebnis erfrischend ist.
TN = Baiducnnic will Baidu in den Rahmen setzen? Probieren Sie einfach diesen Parameter aus, er wird von Baidu für CNNIC angepasst
☆ Such in begrenzten Domain-Namen. Wenn Sie beispielsweise auf der Website von Sina suchen möchten, können Sie den Parameter SI = SINA.com.cn verwenden. Um diesen Parameter effektiv zu machen, müssen Sie ihn in Verbindung mit dem CT -Parameter verwenden.
☆ CT-Der Wert dieses Parameters ist im Allgemeinen eine Zeichenfolge von Zahlen, die als Überprüfungscode für die Suchanforderung geschätzt wird.
Verwenden Sie die SI- und CT-Parameter in Kombination, beispielsweise nach "ideal" in Sina.com.cn, verfügbar: http://www.baidu.com/Baidu?ie=Utf-8&am...n&cl=3&word=ideal
☆ BS-Das Schlüsselwort der letzten Suche (Beforesearch), die schätzungsweise mit verwandten Suchvorgängen zusammenhängt.
2. Baidu Suchergebnisse Seitenstruktur Struktur
Gemäß der Quellcodestruktur ist die Top-Down:
Suchbox
Feste Rangfolge heißer Bereiche rechts
Suchergebnisse
Paginierungsbereich
Verwandte Suchanfragen
Untere Suchbox
Urheberrechtsbereich
Unter ihnen sind die beiden Teile "Suchergebnisse und Paging -Bereich" die gültigen Daten, die wir benötigen. Nach den Codeergebnissen finden Sie die eindeutige Zeichenfolgekennung. Fangen Sie den Inhalt einfach durch diesen Kennung ab. Weitere Informationen finden Sie im folgenden Code.
2. Kernfunktion-xmlhttp-Komponente mit ASP
Das Datenerfassungsprogramm, das allgemein als Thief -Programm bekannt ist, ist der zentrale Bestandteil dieser XMLHTTP -Komponente. Es ist etwas altmodisch, XMLHTTP zum Sammeln von Daten zu verwenden, und es gibt auch viele Online-Informationen. Im Allgemeinen ist der Sammelcode
setThttp = server.createObject ("msxml2.xmlhttp"))
Http.open "get", url, false'open xmlhttp
Http.send () 'eine Anfrage senden
IFHTTP.REYYSTATE <> 4Then
Ausgangsfunktion
Endif
getttppage = byTestObstr (http.responsebody, "gb2312") 'gibt das Ergebnis (normalerweise ein Byte -Stream) zurück und konvertiert den Byte -Stream in eine Zeichenfolge
settThttp = Nothing'Release xmlhttp
Eine detaillierte Anwendung finden Sie im folgenden vollständigen Code
3.. CODE CODE (Dateiname: Searchi_Bd.asp)
<%
OptionExPlicit
Dimwd, pn
wd = request ("wd")