搜尋引擎抓取網頁原理學習筆記

做正規seo技術必會的搜尋引擎抓取網頁原理應該是很複雜的。可以寫洋洋灑灑的長篇論文。這裡就將我自己學習到的網頁抓取原理記錄一下。筆記應該不夠完整隻將重要過程做個介紹

步驟/方法

做正規seo技術必會的搜尋引擎抓取網頁原理應該是很複雜的。可以寫洋洋灑灑的長篇論文。這裡就將我自己學習到的網頁抓取原理記錄一下。筆記應該不夠完整隻將重要過程做個介紹
首先抓取頁面的工作需要分配個搜尋引擎蜘蛛。也就是機器人了。每個搜尋引擎都有大量的蜘蛛供其差遣。在如今這個信息更新極快得年代每個蜘蛛都不會閒著。搜尋引擎給每隻蜘蛛分配了大量網址。確保大家的工作不重複。每個網址有且只有固定的蜘蛛負責爬行
當蜘蛛領取了任務來到目標網站時候會有兩種策略來爬行。分別為深度優先和廣度優先
深度優先是一路走到底。發現一個連結就爬向它。好比下圖的紅色數字順序。來到電腦頁。看到第一個連結是桌上型電腦就進入台式機網頁。該頁第一個連結是戴爾台式機那麼繼續進入該網頁。這時候戴爾台式機網頁沒了連結就返回到桌上型電腦頁面去爬行第二個連結聯想台式機
這樣的爬行缺點是不能按照重要順序來收錄網頁。桌上型電腦筆記本電腦平板電腦都屬於欄目重要性和更新頻率應該遠大於戴爾台式機等等。因此需要優先爬行欄目。

所以廣度優先成了搜尋引擎收錄的主要策略。即來到電腦首頁後發現了三個連接,先將後兩個連結存入工作任務表里,然後對第一個是台式機頁收錄內容。並將其中的子連結比如戴爾台式機和聯想台式機地址記錄下來也保存到工作計劃表里計劃過會來抓。
處理完台式機欄目接下來進入筆記本電腦頁。同樣抓取內容後將其中連結保持在計劃表里。最後來到平板電腦頁收錄裡面內容再將連結存入表里
將欄目頁全部收錄完畢後就從計劃表里抽出之前存入的地址。這裡是依次是戴爾台式機聯想台式機。惠普筆記本華碩筆記本和ipad。以此類推
如下圖藍色數字順序

當然對於大多數網站來說每個頁面都有相同的頭尾,就是用於顯示欄目和友情連結的位置,因此大量頁面頭尾相同指向一樣的連結就會被蜘蛛忽略,這時候正文中的連結將成為其記錄和爬行的目標
當然收錄後的網頁已經不是完整的頁面。而是將其中內容抽取去重複無意義詞等等之後的高質量內容,然後再將這些篩選後的內容添加到分析系統得出文章關鍵詞等等

相關文章

  1. 搜尋引擎抓取網頁的工作原理

    SEO是英文Search engine optimization的縮寫,網頁被搜尋引擎蜘蛛抓取收錄,存放在百度快照並展示出來,總共分為以下四個工作步驟:抓取建庫:檢索排序:外部投票:結果展現. 工具/ ...
  2. 搜尋引擎抓取網頁的方法

    愈來愈多的站長加入到了seo的行列之中,新站長需要知道很多的基礎知識,才能開始優化之旅,有很多半罐子的理論有時會誤導你,網站優化給新手站長推薦Google給網站管理員的網站站長指南.這是一本簡潔的精確 ...
  3. wordpress網站如何屏蔽搜尋引擎抓取

    wordpress網站在建站之初,為了SEO,往往需要先不對搜尋引擎開放,也就是需要先禁止搜尋引擎對我們網站的訪問,那麼這步在wordpress站點中該怎麼操作呢,下面小編就給大家分享一下 工具/原料 ...
  4. PHP抓取網頁failed to open stream解決方案

    本教程完美解決PHP抓取網頁failed to open stream: HTTP request failed!遇到的問題. 工具/原料 PHP一系列軟體 電腦一台 方法/步驟 如圖所示:抓取失敗了 ...
  5. wordpress如何屏蔽搜尋引擎抓取

    我們在搭建網站的時候,有很許多工作沒有做完,有些還需要修改,這時候不希望被搜尋引擎抓取,因為會造成一些死連結.那如何屏蔽搜尋引擎抓取自己的網站呢? 工具/原料 wordpress網站一個 方法/步驟 ...
  6. 怎樣查看網站被搜尋引擎抓取的情況?

    百度用於抓取網頁的程序叫做Baiduspider - 百度蜘蛛,我們查看網站被百度抓取的情況主要是分析,網站日誌里百度蜘蛛Baiduspider的活躍性:抓取頻率,返回的HTTP狀態碼. 查看日誌的方 ...
  7. 怎麼用Java程序抓取網頁原始碼?

    怎麼用java程序抓取網頁原始碼?如果抓取代碼都用程序來做的話,相信要快很多.程序如下:       import java.io.BufferedReader;import java.io.IOEx ...
  8. 怎麼建立一個利於搜尋引擎抓取的網站

    1.簡單明了的網站結構 Spider抓取相當於對web這個有向圖進行遍歷,那麼一個簡單明了結構層次分明的網站肯定是它所喜歡的,並儘量保證spider的可讀性. (1)樹型結構最優的結構即"首 ...
  9. 教你天天讓搜尋引擎抓取的辦法

    搜尋引擎能給我帶來大量的流量,我想這是每個站長都知道的,然而一篇優質的文章遲遲不被搜尋引擎收錄確實很讓人頭痛,那麼我們怎樣讓搜尋引擎天天來光顧我們呢?其實並沒有那麼難,也是有一定辦法的,現在我就和大家 ...
  10. 淺析百度搜尋引擎抓取收錄規則是怎樣的

    很多剛開始做SEO的朋友經常問到的一個問題就是,搜尋引擎到底是怎樣抓取文章內容的,它的收錄原則大概是怎樣,首先聲明:一下方法均為本人經驗總結,並非官方給出的抓取原則.下面我來簡單說一下: 方法/步驟 ...
  11. 一次抓取網頁中所有圖片

    一次抓取網頁中所有圖片 我們上網找素材的時候,經常會遇到一些網頁裡面用了很多自己能夠用到的圖片,但是每一個都要單擊右鍵,然後圖片另存為,很是麻煩.其實藉助SnagIt抓圖軟體可以一次抓取網頁內所有圖片 ...
  12. 如何java寫/實現網絡爬蟲抓取網頁

    很多時候我們需要一些數據或者信息,而這些信息可能是收費的,不公開的,也可能是信息量比較大,如果單純靠我們手工來做的話可能比較浪費時間,所以我們需要寫一個網絡爬蟲,高效地將自己需要的信息抓取下來,在這裡 ...
  13. 小樂圖客攻略:[16]如何抓取網頁CSS背景圖

    我們知道在網頁取圖時,經常遇到一些使用小樂圖客取不到的圖.這時就需要考慮這些圖片是否屬於CSS背景圖,實際圖片地址是否隱藏在CSS文件中.本文分享給大家如何批量從網站CSS文件中抓取背景圖的方法. 工 ...
  14. 抓取網頁指定內容(資料),獲取網頁里的圖片

    最近有遇到同學反饋,網頁里的那些沒有特徵值的文本元素不知道怎麼獲取.以及,不知道怎麼獲取保存網頁里出現的圖片. 工具/原料 按鍵精靈2014 方法/步驟 獲取網頁指定文字: 目前按鍵支持的元素特徵值有 ...
  15. 如何抓取網頁或考試軟體中不能複製的文字

    一些網頁或軟體中的文字被限制,不能複製.而我們卻需要把這些文字複製出來,那麼怎麼才能把這些被限制的文字複製出來呢,下面我給您分享一個好方法:那就是利用圖片文字抓取工具軟體把這些被限制的文字提取出來.這 ...
  16. 除Robots外 防止搜尋引擎抓取技巧

    建設網站的時候有些內容可能不想讓搜尋引擎抓取收錄,這個時候站長都知道使用robots文件,告訴搜尋引擎哪些內容是不需要收錄的,除robots外還有哪些方法可以禁止搜尋引擎收錄? 工具/原料 基本HTM ...
  17. 如何抓取網頁製作製作 mdx 格式詞典

    一個簡單得不能再簡單的網頁抓取然後製作mdx教程 工具/原料 作業系統:Windows 7 旗艦版64位 抓取工具:wget 文本處理:EditPlus, UltraEdit, TextForever ...
  18. 各種瀏覽器抓取網頁圖片技巧

    各種瀏覽器抓取網頁圖片技巧 工具/原料 電腦上安裝好相應的瀏覽器即可 方法/步驟 先說下360的單張圖片抓取 art+滑鼠點擊想要得到的相應圖片,然後保存到相應位置即可. 360的整個頁面圖片的抓取 ...
  19. 色哦優化搜尋引擎抓取統計記錄插件

    知更鳥主題插件:搜尋引擎抓取統計記錄插件 網站日誌分析是每一個站長會定期要做的功課!面對網站日誌海量的信息,有些是為我們所用的,有些則是不為我們所用,其實網站的日誌分析工作對於一個收錄.排名等seo數 ...
  20. 怎樣抓取網頁中的flash動畫

    在網頁中抓取flash動畫,沒有下載連結也可獲得flash. 工具 閃客名捕 閃客精靈 步驟/方法 在安裝碩思閃客精靈的時候,閃客名捕會自動安裝在瀏覽器中:重啟瀏覽器,在瀏覽器的工具欄中會增加這個圖標 ...