採集程序實際上是透過了XML中的XMLHTTP元件來呼叫其它網站上的網頁。例如新聞採集程序,很多都是調用了sina的新聞網頁,並且對其中的html進行了一些替換,同時對廣告也進行了過濾。用採集程式的優點有:無須維護網站,因為採集程式中的資料來自其他網站,它將隨著該網站的更新而更新;可以節省伺服器資源,一般採集程式就幾個文件,所有網頁內容都是來自其他網站。缺點有:
不穩定,如果目標網站出錯,程式也會出錯,而且,如果目標網站進行升級維護,那麼採集程式也要進行相應修改;速度,因為是遠端調用,速度和在本地伺服器上讀取資料比起來,肯定要慢一些。
一、事例
以下就XMLHTTP在ASP的應用做個簡單說明
複製代碼代碼如下:
<%
'常用函數
'1.輸入url目標網頁位址,回傳值getHTTPPage是目標網頁的html代碼
function getHTTPPage(url)
dim Http
set Http=server.createobject(MSXML2.XMLHTTP)
Http.open GET,url,false
Http.send()
if Http.readystate<>4 then
exit function
end if
getHTTPPage=bytesToBstr(Http.responseBody,GB2312)
set http=nothing
if err.number<>0 then err.Clear
end function
'2、轉換亂瑪,直接用xmlhttp呼叫有中文字元的網頁得到的將是亂瑪,可以透過adodb.stream元件進行轉換
Function BytesToBstr(body)
dim objstream
set objstream = Server.CreateObject(adodb.stream)
objstream.Type = 1
objstream.Mode =3
objstream.Open
objstream.Write body
objstream.Position = 0
objstream.Type = 2
objstream.Charset = GB2312 '轉換原來預設的UTF-8編碼轉換成GB2312編碼,否則直接用XMLHTTP元件呼叫有中文字元的網頁得到的將是亂碼
BytesToBstr = objstream.ReadText
objstream.Close
set objstream = nothing
End Function
'下面試著呼叫http://www.google的html內容
Dim Url,Html
Url=http://www.google;
Html = getHTTPPage(Url)
Response.write Html
%>
二、幾個常用的函數
InStr 函數
描述傳回某字元(string2)字串在另一個字串(string1)中第一次出現的位置。
語法InStr(string1, string2)
例如:
Dim SearchString, SearchChar
SearchString =http://www.google ' 要搜尋的字串。
SearchChar = blue1000 ' 搜尋blue1000。
MyBK = Instr(SearchString, SearchChar) ' 回傳8
'如果找不到則回傳0,例如:
SearchChar = BK
MyBK = Instr(SearchString, SearchChar) ' 回傳0
Mid 函數
描述: 從字串中傳回指定數目的字元。
語法Mid(string, start, over)
例如:
Dim MyBK
MyBK = Mid(我們的BK(www.google)設計, 7, 12) '截取字串我們的BK(www.google)設計第7個字元以後的12個字元'此時MyBK的值就變成了www.google
Replace 函數
Dim SearchString, SearchChar
SearchString =我們的BK設計是一個網站建立資源網站' 要在其中搜尋的字串。
SearchString =Replace(SearchString,BK設計,Www.google)'此時SearchString的值就變成了我們的Www.google是一個網站建置資源網站
三、截取指定區域的HTML程式碼
例如我只想取得以下HTML程式碼中<td>和</td>之間的文字部分:
<html>
<title>BK(www.google)Google搜尋引擎</title>
<body>
<table>
<tr><td></td></tr>
<tr><td id=Content>BK(www.google)Google搜尋引擎是資源多多的網站…</td></tr>
</table>
</body>
</html>
<%
……
Dim StrBK,start,over,RsBK
StrBK=getHTTPPage(網頁的網址)
start=Instr(StrBK,<td id=Content>) '此處的作用是取得字串開始地方的定位。這裡要有人問了:原來的程式碼是<td id=Content>,怎麼你這裡呼叫的是<td id=Content>啊?答案:asp中(準確的說是VBscript中是用兩個雙引號來表示一個雙引號的,因為雙引號對於程式來說是個敏感字元。 '這裡又要有人問了:( :程式呼叫HTML程式碼乾嗎前面多出來3個點點…啊?答:提示:上面一行也有一個</td></tr>,如果這裡用</td></ tr>來定位的話,程式會錯誤地把上面一行的</td></tr>當成欲取得字串的結束部分了。 '此處的作用是取出StrBK中第start個字元到第over個字元之間的字串。距離,也就是字元數。
response.write(RsBK) '最後輸出程式所取得的內容
%>
不要高興的太早,當你運行的時候,你會發現頁面的html程式碼有錯誤,為什麼呢?因為你取得的html程式碼是:<td id=Content>BK(www.google)Google搜尋引擎是個資源多多的網站…
看到了吧?有殘缺的HTML程式碼啊!怎麼辦呢? start=Instr(StrBK,<td id=Content>)這個語句取得的是<td id=Content>在
StrBK中的位置數,現在我們可以在程式語句的後面加上17,那麼程式就會將位置指向<td id=Content>後面的那個字元.
好的,程序將改成這樣:
<%
……
Dim StrBK,start,over,RsBK
StrBK=getHTTPPage(網頁的網址)
start=Instr(StrBK,<td id=Content>) + 17
over=Instr(StrBK,…</td></tr>) '這裡你也可以減去七(-7)把3個點去掉
RsBK=mid(StrBK,start,over-start)
response.write(RsBK)
%>
這樣就OK了,我們就可以將我們想要的東西偷過來顯示在我們自己的頁面了,呵呵~
四、刪掉或修改所取得的字符
將RsBK中的BK(www.google)換成BK:
RsBK=replace(RsBK,BK(www.google),BK)
或直接把(www.google)刪掉:
RsBK=replace(RsBK,(www.google),)
好了,現在RsBK就變成了:BK谷歌搜尋引擎是個資源多多的站點…了.但是事實中,有些情況可能replace函數是不適應的,比如我們想把某個字符串裡面的所有連接都去掉.連接可能包括很多種類型,replace只能替代其中特定的一個,我們不可能用一個又一個對應的replace函數來替換吧?