想用asp製作你喜歡的小偷採集程式嗎,看完下面的文章,你就可以自己製作了。原理
採集程序實際上是透過了XML中的XMLHTTP元件來呼叫其它網站上的網頁。例如新聞採集程序,很多都是調用了sina的新聞網頁,並且對其中的html進行了一些替換,同時對廣告也進行了過濾。用採集程式的優點有:無須維護網站,因為採集程式中的資料來自其他網站,它將隨著該網站的更新而更新;可以節省伺服器資源,一般採集程式就幾個文件,所有網頁內容都是來自其他網站。缺點有:不穩定,如果目標網站出錯,程式也會出錯,而且,如果目標網站進行升級維護,那麼採集程式也要進行相應修改;速度,因為是遠端調用,速度和在本地伺服器上讀取數據比起來,肯定要慢一點。
一、事例
以下就XMLHTTP在ASP的應用做個簡單說明
複製代碼代碼如下:
<%
'常用函數
'1.輸入url目標網頁位址,回傳值getHTTPPage是目標網頁的html代碼
function getHTTPPage(url)
dim Http
set Http=server.createobject(MSXML2.XMLHTTP)
Http.open GET,url,false
Http.send()
if Http.readystate<>4 then
exit function
end if
getHTTPPage=bytesToBstr(Http.responseBody,GB2312)
set http=nothing
if err.number<>0 then err.Clear
end function
'2、轉換亂瑪,直接用xmlhttp呼叫有中文字元的網頁得到的將是亂瑪,可以透過adodb.stream元件進行轉換
Function BytesToBstr(body)
dim objstream
set objstream = Server.CreateObject(adodb.stream)
objstream.Type = 1
objstream.Mode =3
objstream.Open
objstream.Write body
objstream.Position = 0
objstream.Type = 2
objstream.Charset = GB2312 '轉換原來預設的UTF-8編碼轉換成GB2312編碼,否則直接用XMLHTTP元件呼叫有中文字元的網頁得到的將是亂碼
BytesToBstr = objstream.ReadText
objstream.Close
set objstream = nothing
End Function
'下面試著呼叫http://www.vevb.com的html內容
Dim Url,Html
Url=http://www.vevb.com;
Html = getHTTPPage(Url)
Response.write Html
%>
二、幾個常用的函數
(一)InStr 函數
描述
傳回某字元(string2)串在另一個字串(string1)中第一次出現的位置。
文法
InStr(string1, string2)
例如:
Dim SearchString, SearchChar
SearchString =http://www.vevb.com ' 要搜尋的字串。
SearchChar = jb51 ' 搜尋jb51。
MyBK = Instr(SearchString, SearchChar) ' 回傳8
'如果找不到則回傳0,例如:
SearchChar = BK
MyBK = Instr(SearchString, SearchChar) ' 回傳0
(二)Mid 函數
描述
從字串中傳回指定數目的字元。
文法
Mid(string, start, over)
例如:
Dim MyBK
MyBK = Mid(我們的BK(www.google)設計, 7, 12) '截取字串我們的BK(www.google)設計第7個字符以後的12個字符
'此時MyBK的值就變成了www.google
(三)Replace 函數
Dim SearchString, SearchChar
SearchString =我們的BK設計是一個網站建立資源網站' 要在其中搜尋的字串。
SearchString =Replace(SearchString,BK設計,Www.google)
'此時SearchString的值就變成了我們的Www.google是一個網站建立資源網站
三、截取指定區域的HTML程式碼
例如我只想取得以下HTML程式碼中<td>和</td>之間的文字部分:
<html>
<title>(www.google)Google搜尋引擎</title>
<body>
<table>
<tr><td></td></tr>
<tr><td id=Content>BK(www.google)Google搜尋引擎是資源多多的網站…</td></tr>
</table>
</body>
</html>
<%
……
Dim StrBK,start,over,RsBK
StrBK=getHTTPPage(網頁的網址)
start=Instr(StrBK,<td id=Content>) '此處的作用是取得字串開始地方的定位。這裡要有人問了:原來的程式碼是<td id=Content>,怎麼你這裡呼叫的是<td id=Content>啊?答案:asp中(準確的說是VBscript中是用兩個雙引號來表示一個雙引號的,因為雙引號對於程式來說是個敏感字元。
over=Instr(StrBK,…</td></tr>)'此處的作用是取得字串結束地方的定位。
'這裡又要有人問了:( :程式呼叫HTML程式碼乾嗎前面多出來3個點點…啊?答:提示:上面一行也有一個</td></tr>,如果這裡用</td></ tr>來定位的話,程式會錯誤地把上面一行的</td></tr>當成欲取得字串的結束部分了。
RsBK=mid(StrBK,start,over-start) '此處的作用是取出StrBK中第start個字元到第over個字元之間的字串。 mid函數前面一節我也講過了;over-start是為了計算出開始位置和結束位置之間的距離,也就是字元數。
response.write(RsBK) '最後輸出程式所取得的內容
%>
不要高興的太早,當你運行的時候,你會發現頁面的html程式碼有錯誤,為什麼呢?因為你取得的html代碼是:
<td id=Content>BK(www.google)Google搜尋引擎是資源多多的網站…
看到了吧?有殘缺的HTML程式碼啊!怎麼辦呢? start=Instr(StrBK,<td id=Content>)這個語句取得的是<td id=Content>在StrBK中的位置數,現在我們可以在程式語句的後面加上17,那麼程式就會將位置指向<td id=Content>後面的字元.
好的,程序將改成這樣:
<%
……
Dim StrBK,start,over,RsBK
StrBK=getHTTPPage(網頁的網址)
start=Instr(StrBK,<td id=Content>) + 17
over=Instr(StrBK,…</td></tr>) '這裡你也可以減去七(-7)把3個點去掉
RsBK=mid(StrBK,start,over-start)
response.write(RsBK)
%>
這樣就OK了,我們就可以將我們想要的東西偷過來顯示在我們自己的頁面了,呵呵~
四、刪掉或修改所取得的字符
將RsBK中的BK(www.google)換成BK:
RsBK=replace(RsBK,BK(www.google),BK)
或直接把(www.google)刪掉:
RsBK=replace(RsBK,(www.google),)
好了,現在RsBK就變成了:BK谷歌搜尋引擎是個資源多多的站點…了.
但是事實中,有些情況可能replace函數是不適應的,比如我們想把某個字符串裡面的所有連接都去掉.連接可能包括很多種類型,replace只能替代其中特定的一個,我們不可能用一個又一個對應的replace函數來替換吧?
但可以使用正規表示式來取代此項工作。這裡不細談了。
(一)如何將對方網站的翻頁也處理成我們自己的呢?
答案是:利用replace函數和頁面參數的傳遞。
例如對方頁面裡含有這樣的翻頁程式碼:<a href=2.htm>下一頁</a>,我們可以先利用上面講的內容,取得這個字串,然後用replace函數:RsBK=replace( RsBK,<a href=,<a href=page.asp?Url=)
然後再page.asp的程式裡取得Url的參數值,最後用採集技術取得下一頁你想要的內容就可以了。
(二)如何將取得的內容入庫
由於篇幅有限,這裡簡單說一下.
其實很簡單:
將偷來的內容作一下處理,防止在寫入資料庫的時候出現sql注入錯誤,例如:replace(String,','')
然後執行一個插入資料庫操作的sql指令就ok了~
以上只是一些關於XMLHTTP元件的初級應用,實際上它還能實現的功能還有很多,比如說保存遠端圖片到本機伺服器上,配合adodb.stream元件可以把取得來的資料保存進資料庫。採集的作用和使用範圍都很廣。