搜尋引擎抓取網頁原理學習筆記

做正規seo技術必會的搜尋引擎抓取網頁原理應該是很複雜的。可以寫洋洋灑灑的長篇論文。這裡就將我自己學習到的網頁抓取原理記錄一下。筆記應該不夠完整隻將重要過程做個介紹

步驟/方法

做正規seo技術必會的搜尋引擎抓取網頁原理應該是很複雜的。可以寫洋洋灑灑的長篇論文。這裡就將我自己學習到的網頁抓取原理記錄一下。筆記應該不夠完整隻將重要過程做個介紹
首先抓取頁面的工作需要分配個搜尋引擎蜘蛛。也就是機器人了。每個搜尋引擎都有大量的蜘蛛供其差遣。在如今這個信息更新極快得年代每個蜘蛛都不會閒著。搜尋引擎給每隻蜘蛛分配了大量網址。確保大家的工作不重複。每個網址有且只有固定的蜘蛛負責爬行
當蜘蛛領取了任務來到目標網站時候會有兩種策略來爬行。分別為深度優先和廣度優先
深度優先是一路走到底。發現一個連結就爬向它。好比下圖的紅色數字順序。來到電腦頁。看到第一個連結是桌上型電腦就進入台式機網頁。該頁第一個連結是戴爾台式機那麼繼續進入該網頁。這時候戴爾台式機網頁沒了連結就返回到桌上型電腦頁面去爬行第二個連結聯想台式機
這樣的爬行缺點是不能按照重要順序來收錄網頁。桌上型電腦筆記本電腦平板電腦都屬於欄目重要性和更新頻率應該遠大於戴爾台式機等等。因此需要優先爬行欄目。

所以廣度優先成了搜尋引擎收錄的主要策略。即來到電腦首頁後發現了三個連接,先將後兩個連結存入工作任務表里,然後對第一個是台式機頁收錄內容。並將其中的子連結比如戴爾台式機和聯想台式機地址記錄下來也保存到工作計劃表里計劃過會來抓。
處理完台式機欄目接下來進入筆記本電腦頁。同樣抓取內容後將其中連結保持在計劃表里。最後來到平板電腦頁收錄裡面內容再將連結存入表里
將欄目頁全部收錄完畢後就從計劃表里抽出之前存入的地址。這裡是依次是戴爾台式機聯想台式機。惠普筆記本華碩筆記本和ipad。以此類推
如下圖藍色數字順序

當然對於大多數網站來說每個頁面都有相同的頭尾,就是用於顯示欄目和友情連結的位置,因此大量頁面頭尾相同指向一樣的連結就會被蜘蛛忽略,這時候正文中的連結將成為其記錄和爬行的目標
當然收錄後的網頁已經不是完整的頁面。而是將其中內容抽取去重複無意義詞等等之後的高質量內容,然後再將這些篩選後的內容添加到分析系統得出文章關鍵詞等等

本文內容整理自網絡, 文中所有觀點看法不代表淘大白的立場