怎樣查看網站被搜尋引擎抓取的情況?

百度用於抓取網頁的程序叫做Baiduspider - 百度蜘蛛,我們查看網站被百度抓取的情況主要是分析,網站日誌里百度蜘蛛Baiduspider的活躍性:抓取頻率,返回的HTTP狀態碼。

查看日誌的方式:

過FTP,在網站根目錄找到一個日誌文件,文件名一般包含log,下載解壓裡面的記事本,這即是網站的日誌,記錄了網站被訪問和操作的情況。因為各個伺服器和主機的情況不同,不同的主機日誌功能記錄的內容不同,有的甚至沒有日誌功能。

日誌內容如下:

61.135.168.22 - - [11/Jan/2009:04:02:45 +0800] "GET /bbs/thread-7303-1-1.html HTTP/1.1" 200 8450 "-" "Baiduspider+(+http://www.baidu.com/search/spider.htm)"

分析:

/bbs/thread-7303-1-1.html 代表,抓取/bbs/thread-7303-1-1.html 這個頁面。
200 代表成功抓取。
8450 代表抓取了8450個字節。
如果你的日誌里格式不是如此,則代表日誌格式設置不同。
很多日誌里可以看到 200 0 0和200 0 64 則都代表正常抓取。
抓取頻率是通過查看每日的日誌里百度蜘蛛抓取次數來獲知。抓取頻率並沒有一個規範的時間表或頻率數字,我們一般通過多日的日誌對比來判斷。當然,我們希望百度蜘蛛每日抓取的次數越多越好。

讓蜘蛛經常光臨

文章需要經常更新
蜘蛛就和一個人一樣,想要吸引它,必須要有最新鮮的內容。如果都是一些老舊的內容,誰還會還看呢?每天或者數天一篇新的原創文章能夠很好地勾引蜘蛛,同時也能夠讓更多的訪客來你的網站上留下足跡。
頁面簡潔,保證打開速度
一個乾淨、簡潔的頁面能夠比一個滿是廣告、無用信息的頁面更頁面更能夠吸引用戶,這對於蜘蛛也是。越少的需要抓取的內容,越快的打開速度,能夠保證蜘蛛的高效率抓取,蜘蛛來訪的頻率也會越高。
內部連結結構良好,無死鏈和大量重複鏈
蜘蛛的爬行除了抓取頁面,還通過頁面上的連結進行「行走」。如果正好步入了一個死鏈,正如同步入深淵一般,蜘蛛可能需要一段時間之後才能繼續抓取。同樣的,如果有大量的重複連結,一直爬到這個頁面上去,蜘蛛就會認為這個頁面沒有太大的意義,甚至會停止爬行。
為蜘蛛指路——建設網站地圖
網站地圖就好比是一個指向標,唯有清晰明了的指向標才能指引蜘蛛的去向。方便快捷的道路也會勾引來更多的蜘蛛。
每個頁面都有完整的meta標籤
擁有完整的meta標籤可以更快地告訴蜘蛛這個頁面里有什麼,提高蜘蛛的抓取效率。這主要包括keywords(關鍵詞)和description(描述),如果想讓meta更完美,可以加上generator(作者)、robots(蜘蛛)、copyright(版權)等等。
確保伺服器能夠正常運作,避免宕機
在建網站之前,就要考慮好選擇一個穩定的伺服器,寧可多花點錢,也不要貪小便宜。穩定的運作能夠使蜘蛛更好地進行抓取並不中斷,還能容納下更多勾引來的蜘蛛。
確保伺服器返回信息正常
千萬不要限制伺服器返回信息,這對於蜘蛛來說很重要。一旦無法獲取到正確的返回信息,蜘蛛將會迷失方向。
監測蜘蛛的爬行
可以利用日誌知道蜘蛛正在抓取哪些頁面,知己知彼,方能根據蜘蛛的喜好對頁面進行調整,以勾引來更多的蜘蛛。
利用Google管理員工具查看爬行速度
可以利用Google專門為站長提供的管理員工具對蜘蛛的爬行速度進行查看,合理分配資源,以達到更高的抓取速度和勾引更多的蜘蛛。
增加網站的外鏈
這一條和第三點相類似,因為蜘蛛的通過連結爬行。別的網站上也有蜘蛛,就可以想辦法將蜘蛛勾引過來,這辦法就是在網站上發外鏈。

本文內容整理自網絡, 文中所有觀點看法不代表淘大白的立場