在一般的鏈接地址形式如:
複製代碼代碼如下:
1、<aclass="鏈接樣式"href="鏈接地址"title="鏈接說明"target="_blank">文章標題</a>
2、<aclass='鏈接樣式'href='鏈接地址'title='鏈接說明'target='_blank'>文章標題</a>
大家注意看上面兩行代碼,有一個區別就是第一個中間使用的是雙引號,第二個使用的是單引號。一般來說,如果在文章列表頁面都使用雙引號或者使用單引號,很容易讓採集者找到文章路徑(開始代碼:href=',結束代碼:')。
那如果我們混合著用,也就是有的使用單引號,有的使用雙引號,那麼就會給採集者帶來一定的麻煩。至少他不能採集到所有文章(如果採集程序差一點的話可能一篇也採集不到)。
在上面的基礎上,更深入一步將A中間的參數進行隨機排列:
複製代碼代碼如下:
<ahref="鏈接地址"title="鏈接說明"target="_blank"class="鏈接樣式">
<ahref="鏈接地址"class="鏈接樣式"title="鏈接說明"target="_blank">
<atitle="鏈接說明"href="鏈接地址"class="鏈接樣式"target="_blank">
然後再在其中混用單雙引號,在href=後面還可以不使用引號。那麼採集者將不能正確獲取列表頁面中文章地址。
再深入一步,可以在列表中加入乾擾碼,如把鏈接部分重複加一次空白鏈接,(<ahref="鏈接地址"title="鏈接說明"target="_blank"class="鏈接樣式"></a>),那麼如果對方能夠獲取一部分文章地址,或者能夠採集一部分文章,那麼這部分文章也肯定是重複的。
在進行以上修改後,我想大部分採集者都會知難退的哈。缺點就是代碼不太標準。以上僅雨哲個人觀點。