Robots.txt檔案是一個簡單的TXT文本,但是專注網站建設及網站優化的SEOer們都清楚它的重要性,它的存在可以將不希望搜尋引擎抓取的頁面屏蔽起來,也可以像是一張地圖一樣為蜘蛛引路指航。當蜘蛛爬行到一個站點時,首先訪問的便是是否存在Robots.txt文件,然後按照內容中的指引來進行索引訪問,如果文件不存在的話那麼就按照頁面中的鏈接進行順序的訪問。因此我們可以利用它來屏蔽一些不需要搜尋引擎要索引的目錄,或者將網站地圖在Robots.txt中描述引導蜘蛛爬行,這樣對於網站安全性上或者節省伺服器頻寬以及引導索引都是非常給力的,可以說是達到了揚己之長避己之短的效果,以下我們做以具體分析:
一、利用Robots.txt節省伺服器頻寬
一般來說站長很少去做這樣一個設置,然而當伺服器訪問量大內容過於多的話就有必要做一個設置來節省伺服器的頻寬,如屏蔽:image這樣的資料夾,對於搜尋引擎索引來說沒有什麼實際性的意義還浪費了大量的頻寬。如果對於一個圖片網站來說,消耗更是驚人的,所以利用Robots.txt可以充分解決這一點。
二、保護網站安全目錄
一般來說在設定Robots.txt時都要把管理目錄以及資料庫、備份目錄設定進去,進位蜘蛛的爬行,否則容易造成資料的外洩影響網站的安全。當然還有一些管理員不希望蜘蛛索引的其他目錄,同樣可以將其進行設置,這樣來說搜尋引擎就可以嚴格的遵守這個規則來進行索引。
三、禁止搜尋引擎索引頁面
一個網站總有一些不希望公眾看到的頁面,這個時候我們可以用Robots.txt來進行設置,避免蜘蛛對其索引,如前段日子筆者網速比較慢結果更新了一篇文章,導致連續重複發布了3次,結果全部都被搜尋引擎索引,怎麼辦呢?重複的內容必然對網站優化是不好的,這時候可以透過設定Robots.txt來將多餘的頁面屏蔽掉。
四、Robots.txt連結網站地圖
由於蜘蛛訪問網站首先查看的便是Robots.txt這個文件,那麼我們可以將網站地圖設置進去,更有利於蜘蛛索引最新的信息,而少走許多冤枉路。如顯示專業網站建設公司引航科技的地圖頁: http://www.****.net.cn/ sitemap.xml這樣加到Robots.txt中更是有利於搜尋引擎的索引。也不用每天麻煩的到搜尋引擎提交地圖文件,不是很簡單嗎?
五、寫法及注意事項
對於Robots.txt寫法一定要規範,寫法上疏忽不注意的人並不在少數。首先來說:User-agent:*是必須要寫的,*表示針對所有搜尋引擎。 Disallow:(檔案目錄)不包含括號,表示禁止搜尋引擎索引的意思,一下舉例說明:
範例1:
User-agent:*
Disallow:/
表示禁止任何搜尋引擎索引訪問,
範例2:
User-agent:*
Disallow:/seebk
表示禁止搜尋引擎索引存取seebk目錄
範例3:
User-agent:baiduspider
User-agent:*
Disallow:/
表示只允許百度蜘蛛堆砌索引存取:百度:baiduspider,Google:googlebot,搜搜:sosospider,Alexa:ia_archiver,雅虎:Yahoo Slurp
範例4:
User-agent:*
Disallow:.jpg$
防止盜鏈jpg圖片,如果你的頻寬夠多的話可以不設定。
後語:優化Robots.txt揚己之長避己之短,做好Robots.txt更容易網站順暢優化發展,本文www.joyweb.net.cn原創撰寫!
作者二進位網路的個人空