独自の検索エンジンを持ちたいですか?現在人気のあるデータ収集方法を使用すると、すぐに入手できます。段階的にそれを実装することを教えてください。
1. Baidu検索を理解してください
世界最大の中国の検索エンジンであるBaidu Searchは、2005年8月5日に米国のNASDAQにリストされました。現在、中国で最高のユーザー使用率を持つ検索エンジンであり、Webページ、ニュース、写真、音楽、地図などのさまざまな検索を提供しています。
1。Baidu Web検索のクエリパラメーター
必要なパラメーター
☆wd--キーワードfor query(keyword)
☆PN-結果を示すページの数(pageNumber)
☆CL-検索タイプ(クラス)、Cl = 3はWeb検索です
オプションのパラメーター
☆RN-検索結果の数(RecordNumber)、値範囲は10〜100の間で、デフォルト設定はRN = 10です
☆IE-入力テキストのエンコード(inputEncoding)のエンコード、デフォルトの設定はIE = GB2312であり、これは中国語を簡素化されています
tn-検索要求を送信するためのソースサイト
いくつかの有用なTNS
TN = Baidulocalとは、Baiduサイトで検索することを意味します。返された結果は非常にきれいで、広告干渉はありません。たとえば、バイドゥで「幸せ」を検索して、返品結果が更新されているかどうかを確認します。
TN = BaiducnnicはBaiduをフレームワークに入れたいですか?このパラメーターを試してみてください、それはcnnicのためにBaiduによってカスタマイズされています
☆si-限られたドメイン名での検索。たとえば、SinaのWebサイトで検索する場合は、パラメーターsi = sina.com.cnを使用できます。このパラメーターを効果的にするには、CTパラメーターと組み合わせて使用する必要があります。
ct-このパラメーターの値は、一般に一連の数字であり、検索要求の検証コードと推定されます。
sina.com.cnで「理想」を検索するなど、siとctパラメーターを組み合わせて使用します。
bs BS-最後の検索のキーワード(Beforesearch)。これは、関連する検索に関連していると推定されています。
2。Baidu検索結果ページ構造
ソースコード構造によると、トップダウンは次のとおりです。
検索ボックス
右側のホットエリアの固定ランキング
検索結果
ページネーションエリア
関連検索
下の検索ボックス
著作権エリア
その中で、2つの部分「検索結果とページングエリア」は、必要な有効なデータです。コードの結果によると、その一意の文字列識別子を見つけることができます。この識別子を介してコンテンツを傍受するだけです。詳細については、次のコードをご覧ください。
2。ASPを使用したコア関数 - XMLHTTPコンポーネント
一般的に泥棒プログラムとして知られているデータ収集プログラムは、このXMLHTTPコンポーネントの中核部分です。 xmlhttpを使用してデータを収集するのは少し古風なものであり、オンライン情報もたくさんあります。一般的に、コレクションコードはです
setthttp = server.createObject( "msxml2.xmlhttp")
http.open "get"、url、false'open xmlhttp
http.send() 'リクエストを送信します
ifhttp.ReadyState <> 4then
exitFunction
endif
gethttppage = bytestobstr(http.responsebody、 "gb2312") 'は結果(通常はバイトストリーム)を返し、バイトストリームを文字列に変換します
setthttp = Nothing'Release xmlhttp
詳細なアプリケーションについては、以下の完全なコードを参照してください
3。完全なコード(ファイル名:searchi_bd.asp)
<%
optionexplicit
dimwd、pn
wd = request( "wd")