如何爬取網站數據——前嗅ForeSpider使用教程

前嗅forespider數據採集軟體的使用教程,可視化的軟體,簡單的操作,強大的功能,幫助不會爬蟲的人採集數據。

工具/原料

ForeSpider

方法/步驟

我們想要從網上獲取自己想要的數據,通常有幾種常見的方式,方式一,手動複製粘貼,適合收集少量數據;二,自己編寫爬蟲腳本,獲取自己想要得到的數據,能收集大量數據,但需要自己有編碼能力;三,使用數據採集軟體,既不需要自己編寫爬蟲腳本,又能收集自己想要的數據。

作為一個日常工作中需要採集大量數據來分析用戶需求與行為的人,又不會編寫腳本,一個好用的數據採集軟體成為我工作中必不可少的工具,這幾天我使用了幾種數據採集軟體,發現最好用的就是前嗅的ForeSpider數據採集軟體。可視化的操作界面,很高級,功能全面,我需要採集的網站都能滿足。下面我給大家分享一下最近的使用心得,希望能幫助到有需要的人。

我採集的網站是大眾點評,想要得到50頁內所有醫院名稱,該醫院評論總數,醫院總體星級,各項評分,醫院評論的用戶名,評論內容,評論時間,用戶點評星級,獲贊數量和回應數量。

1、

首先我們先新建一個頻道,我給它命名為大眾點評,然後在頻道配置里輸入我們想要爬取數據的網址,需要在頻道配置處輸入想要得到數據的網址,大眾點評需要開啟cookie,「基本配置」-「頻道屬性」里能開啟cookie。

現在默認模板(1)就是我們要的網站頁面,滑鼠放在醫院標題處如圖,從左下角能看到醫院的網址連結。

現在點一下右上角的採集預覽,我們能得到整個頁面的所有網頁連結,下拉滾動條到這個位置就會發現跟上圖相同格式的連結,這就是我們需要的所有醫院的連結。

我們用不到的需要過濾一下,可以通過地址過濾和標題過濾方法篩選。

點擊軟體右上角模板抽取配置裡面的連結抽取,裡面有地址過濾和標題過濾兩個選項,點擊地址過濾,過濾規則選擇包含,過濾串內輸入想要得到的醫院連結,後面這串數字我們用「\d」表示,用「\e」表示結束,例如https://www.dianping.com/shop/\d\e,這樣就能採集網頁內所有這種格式的網頁連結。軟體右下角如圖:

2、

當我們想要採集的網頁下面有翻頁的連結,就必須配置翻頁。除了在右上角默認模板處抽取我們想要的得到的醫院連結外,還要再新建一個連結抽取,抽取頁面翻頁的地址。

我們繼續從採集預覽處得到翻頁的連結,過濾規則選擇包含,通過觀察發現幾個連結的相同點,輸入到過濾串里就能得到想要的翻頁連結了。如下圖:

下面我們隨便點進一個醫院主頁內,複製連結建立下一層級模板,在默認模板(2)的示例地址內輸入醫院主頁的連結,得到模板二

因為我們需要採集該醫院所有用戶評論,所以我們找到下面的「更多點評」,通過剛剛地址過濾的方法,過濾出更多點評的連結,並建立模板(3),示例地址輸入剛剛過濾的得到的更多點評的網址。

註:點擊連結抽取,看左下角關聯模板處,一定要關聯到下一層級的模板,如果是翻頁的連結抽取,要關聯自身模板,否則會數據採集失敗。

模板配置完了,我們下一步是建立表單,如下圖紅色字體我們能從模板二採集到,藍色字體我們能從模板三採集到,所以我們需要建立兩個表單

點擊表單配置,新建一個表單,添加一個網頁主鍵如圖,一定要勾選索引欄位,鍵值唯一,主鍵欄位三個選項,取值類型選擇網頁主鍵點擊確定。

然後添加下一個欄位如標題「title」

取值類型選擇「選區內全部文本」,變量類型選擇「string」,選擇合適的字符長度點擊確定。

這是我建立的兩個表單的所有欄位,表單名稱分別為「大眾點評1」、「大眾點評2」,建立好以後點擊保存即可。

點開模板配置,每一個模板對應相應的表單,右鍵模板二「添加數據抽取」,表單名稱選擇「大眾點評1」。

同樣在模板三處再添加另外一個數據抽取表單,添加好後如下圖所示:

例如單擊「title」,然後按住ctrl鍵同時滑鼠左鍵點擊對應標題,內容過多的話按住shift可以調整內容大小,選好後點擊保存即可。

全部選取完後點擊左上角的文件,然後全部保存,就完成啦!

下一步點擊數據,連接資料庫,直接點擊打開即可,然後再次點擊數據,選擇數據表,選擇剛剛新建兩個數據表後點擊創建表,創建好後勾選並確定,就可以進行數據採集了(如果表單有問題需要更改,改好後需要重新創建表單),速度慢可以點擊設置裡面的線程設置,設置多線程。

今天的分享就就到這裡了,我也是初學者可能用的不是特別好,希望能幫助到有需要的人,這個軟體確實對我的工作很有幫助,祝大家使用愉快!

本文內容整理自網絡, 文中所有觀點看法不代表淘大白的立場