如何爬取網站數據——前嗅ForeSpider使用教程

前嗅forespider數據採集軟體的使用教程,可視化的軟體,簡單的操作,強大的功能,幫助不會爬蟲的人採集數據。

工具/原料

ForeSpider

方法/步驟

我們想要從網上獲取自己想要的數據,通常有幾種常見的方式,方式一,手動複製粘貼,適合收集少量數據;二,自己編寫爬蟲腳本,獲取自己想要得到的數據,能收集大量數據,但需要自己有編碼能力;三,使用數據採集軟體,既不需要自己編寫爬蟲腳本,又能收集自己想要的數據。

作為一個日常工作中需要採集大量數據來分析用戶需求與行為的人,又不會編寫腳本,一個好用的數據採集軟體成為我工作中必不可少的工具,這幾天我使用了幾種數據採集軟體,發現最好用的就是前嗅的ForeSpider數據採集軟體。可視化的操作界面,很高級,功能全面,我需要採集的網站都能滿足。下面我給大家分享一下最近的使用心得,希望能幫助到有需要的人。

我採集的網站是大眾點評,想要得到50頁內所有醫院名稱,該醫院評論總數,醫院總體星級,各項評分,醫院評論的用戶名,評論內容,評論時間,用戶點評星級,獲贊數量和回應數量。

1、

首先我們先新建一個頻道,我給它命名為大眾點評,然後在頻道配置里輸入我們想要爬取數據的網址,需要在頻道配置處輸入想要得到數據的網址,大眾點評需要開啟cookie,「基本配置」-「頻道屬性」里能開啟cookie。

現在默認模板(1)就是我們要的網站頁面,滑鼠放在醫院標題處如圖,從左下角能看到醫院的網址連結。

現在點一下右上角的採集預覽,我們能得到整個頁面的所有網頁連結,下拉滾動條到這個位置就會發現跟上圖相同格式的連結,這就是我們需要的所有醫院的連結。

我們用不到的需要過濾一下,可以通過地址過濾和標題過濾方法篩選。

點擊軟體右上角模板抽取配置裡面的連結抽取,裡面有地址過濾和標題過濾兩個選項,點擊地址過濾,過濾規則選擇包含,過濾串內輸入想要得到的醫院連結,後面這串數字我們用「\d」表示,用「\e」表示結束,例如https://www.dianping.com/shop/\d\e,這樣就能採集網頁內所有這種格式的網頁連結。軟體右下角如圖:

2、

當我們想要採集的網頁下面有翻頁的連結,就必須配置翻頁。除了在右上角默認模板處抽取我們想要的得到的醫院連結外,還要再新建一個連結抽取,抽取頁面翻頁的地址。

我們繼續從採集預覽處得到翻頁的連結,過濾規則選擇包含,通過觀察發現幾個連結的相同點,輸入到過濾串里就能得到想要的翻頁連結了。如下圖:

下面我們隨便點進一個醫院主頁內,複製連結建立下一層級模板,在默認模板(2)的示例地址內輸入醫院主頁的連結,得到模板二

因為我們需要採集該醫院所有用戶評論,所以我們找到下面的「更多點評」,通過剛剛地址過濾的方法,過濾出更多點評的連結,並建立模板(3),示例地址輸入剛剛過濾的得到的更多點評的網址。

註:點擊連結抽取,看左下角關聯模板處,一定要關聯到下一層級的模板,如果是翻頁的連結抽取,要關聯自身模板,否則會數據採集失敗。

模板配置完了,我們下一步是建立表單,如下圖紅色字體我們能從模板二採集到,藍色字體我們能從模板三採集到,所以我們需要建立兩個表單

點擊表單配置,新建一個表單,添加一個網頁主鍵如圖,一定要勾選索引欄位,鍵值唯一,主鍵欄位三個選項,取值類型選擇網頁主鍵點擊確定。

然後添加下一個欄位如標題「title」

取值類型選擇「選區內全部文本」,變量類型選擇「string」,選擇合適的字符長度點擊確定。

這是我建立的兩個表單的所有欄位,表單名稱分別為「大眾點評1」、「大眾點評2」,建立好以後點擊保存即可。

點開模板配置,每一個模板對應相應的表單,右鍵模板二「添加數據抽取」,表單名稱選擇「大眾點評1」。

同樣在模板三處再添加另外一個數據抽取表單,添加好後如下圖所示:

例如單擊「title」,然後按住ctrl鍵同時滑鼠左鍵點擊對應標題,內容過多的話按住shift可以調整內容大小,選好後點擊保存即可。

全部選取完後點擊左上角的文件,然後全部保存,就完成啦!

下一步點擊數據,連接資料庫,直接點擊打開即可,然後再次點擊數據,選擇數據表,選擇剛剛新建兩個數據表後點擊創建表,創建好後勾選並確定,就可以進行數據採集了(如果表單有問題需要更改,改好後需要重新創建表單),速度慢可以點擊設置裡面的線程設置,設置多線程。

今天的分享就就到這裡了,我也是初學者可能用的不是特別好,希望能幫助到有需要的人,這個軟體確實對我的工作很有幫助,祝大家使用愉快!

相關文章

  1. 如何採集論壇數據——前嗅ForeSpider

    以圖中網站為例,採集當前列表頁博文的正文數據 工具/原料 ForeSpider數據採集軟體 第一步:新建任務 點擊左上角"加號"新建任務,如圖所示. 在彈窗里填寫採集地址,任務名稱 ...
  2. 如何在分區連結採集正文數據——前嗅ForeSpider

    以圖中網站(金融經濟)為例,通過當前要聞分區連結到新聞列表頁採集正文數據. 工具/原料 前嗅ForeSpider 第一步:新建任務 點擊左上角"加號"新建任務,如圖所示. 在彈窗里 ...
  3. 前嗅ForeSpider同一個網站中從另一頁面採集數據

    本文主要介紹了用前嗅ForeSpider同一個網站中從另一頁面採集數據的具體操作流程: 工具/原料 前嗅ForeSpider採集系統 方法/步驟 第一步:新建任務 ①點擊左上角"加號&quo ...
  4. 前嗅ForeSpider爬蟲軟體採集網頁中看不到的數據

    給大家介紹一款好用的爬蟲數據採集軟體. 1.前嗅ForeSpider數據採集系統,集成前嗅自主研發的數據採集系統.數據挖掘系統.數據分析引擎.資料庫和伺服器,實現數據從採集.挖掘.分析到入庫一步到位. ...
  5. 前嗅ForeSpider採集表格/列表頁中的數據+翻頁

    採集帶有翻頁的表格/列表中的數據. 工具/原料 ForeSpider數據採集軟體 方法/步驟 第一步:新建任務 以圖中網站最近出版頁為例,採集列表頁的所有數據: 第一步:新建任務 ① 擊左上角&quo ...
  6. 前嗅ForeSpider通過子欄目採集正文數據

    用前嗅ForeSpider通過子欄目進入連結列表採集正文數據,適用於所有採集網頁正文數據的採集工作. 工具/原料 前嗅ForeSpider採集系統 方法/步驟 第一步:新建任務 ①點擊左上角" ...
  7. 前嗅ForeSpider採集列表和正文的數據

    前嗅ForeSpider採集列表和正文的數據 工具/原料 前嗅ForeSpider採集系統 方法/步驟 第一步:新建任務 ①點擊左上角"加號"新建任務,如圖1: ② 彈窗里填寫採集 ...
  8. 用前嗅ForeSpider通過搜尋框檢索關鍵詞採集數據

    以百度搜尋關鍵詞為例,用前嗅ForeSpider採集當前列表頁的正文數據. 工具/原料 前嗅ForeSpider採集系統 方法/步驟 第一步:新建任務 ①點擊左上角"加號"新建任務 ...
  9. 前嗅ForeSpider教程:通過連結列表採集正文數據

    前嗅ForeSpider爬蟲改版之後,好像變得很好用.發個教程給大家看一下,本文介紹的是,如何通過列表頁採集正文數據. 工具/原料 前嗅ForeSpider採集系統 第一步:新建任務 點擊左上角&qu ...
  10. 前嗅ForeSpider教程:如何採集新聞數據

    在信息大爆炸的時代,如何成批量的抓取優質新聞數據,今天來為大家介紹一下如何用ForeSpider採集新聞數據.操作如下: 工具/原料 前嗅ForeSpider採集系統 第一步:新建任務 點擊左上角&q ...
  11. 超好用的前嗅ForeSpider爬蟲軟體教程

    給大家介紹ForeSpider數據採集系統的使用教程.因為屬於專業性工具,所以除了幫助文檔外很少有使用教程. 跟之前使用過的其他爬蟲軟體對比發現,ForeSpider爬蟲有自己的內置資料庫,當然也支持 ...
  12. 如何爬取網頁數據

    Python是進行網頁爬蟲和網頁數據抓取的一個不錯語言.其中python也提供了不少模塊用於數據抓取.urllib是用於打開網頁連結的模塊,urlopen()函數用於打開網頁,bs4(Beautifu ...
  13. 圖解利用Web Scraper 抓取網站數據

    本篇經驗將和大家介紹利用Web Scraper 抓取網站數據,希望對大家的工作和學習有所幫助! 方法/步驟 Web Scraper插件安裝和界面介紹,參考如下經驗. 打開了 hao123 頁面,並且在 ...
  14. Excel如何抓取網站數據並設置自動更新實時數據

    網站發布的實時數據,往往是我們進行統計分析的重要信息源. 但是,每次都要複製網站上的數據然後粘貼到Excel,這樣操作會比較繁瑣. 其實,我們可以通過設置,實現讓Excel自動抓取網站的實時最新數據. ...
  15. 簡單用前嗅ForeSpider爬蟲軟體採集表格/列表

    方便快捷的可視化採集表格/列表數據 工具/原料 ForeSpider數據採集軟體 方法/步驟 第一步:新建任務 以前嗅的官網Web伺服器表格為例. ① 擊左上角"加號"新建任務,圖 ...
  16. 前嗅ForeSpider採集連結/源碼/時間/地址等

    前嗅ForeSpider採集網頁連結/源碼/時間/重定向地址等具體操作流程 工具/原料 前嗅ForeSpider採集系統 方法/步驟 第一步:新建任務 ①點擊左上角"加號"新建任務 ...
  17. 前嗅ForeSpider教程:採集圖片/視頻/資源文件

    本文介紹了如何採集圖片/視頻/資源文件~ 工具/原料 前嗅ForeSpider採集系統 方法/步驟 第一步:新建任務 ①點擊左上角"加號"新建任務,如圖1: ① 彈窗里填寫採集地址 ...
  18. 前嗅ForeSpider採集需要配置登陸的網頁內容

    使用前嗅ForeSpider,進行登錄配置後採集正文數據. 工具/原料 ForeSpider數據採集軟體 第一步:新建任務 點擊左上角"加號"新建任務,如圖 彈窗里填寫採集地址,任 ...
  19. 前嗅ForeSpider教程:新聞資訊採集

    本文主要介紹了用前嗅ForeSpider採集新聞資訊的詳細操作流程: 工具/原料 前嗅ForeSpider採集系統 第一步:新建任務 點擊左上角"加號"新建任務,如圖: 在彈窗里填 ...
  20. 前嗅ForeSpider教程:採集企業信息

    本文主要介紹了前嗅ForeSpider教程採集企業信息的具體操作流程: 工具/原料 前嗅ForeSpider採集系統 第一步:新建任務 點擊左上角"加號"新建任務,如圖: 在彈窗里 ...