如何爬取網站數據——前嗅ForeSpider使用教程

前嗅forespider數據採集軟體的使用教程,可視化的軟體,簡單的操作,強大的功能,幫助不會爬蟲的人採集數據。

工具/原料

ForeSpider

方法/步驟

我們想要從網上獲取自己想要的數據,通常有幾種常見的方式,方式一,手動複製粘貼,適合收集少量數據;二,自己編寫爬蟲腳本,獲取自己想要得到的數據,能收集大量數據,但需要自己有編碼能力;三,使用數據採集軟體,既不需要自己編寫爬蟲腳本,又能收集自己想要的數據。

作為一個日常工作中需要採集大量數據來分析用戶需求與行為的人,又不會編寫腳本,一個好用的數據採集軟體成為我工作中必不可少的工具,這幾天我使用了幾種數據採集軟體,發現最好用的就是前嗅的ForeSpider數據採集軟體。可視化的操作界面,很高級,功能全面,我需要採集的網站都能滿足。下面我給大家分享一下最近的使用心得,希望能幫助到有需要的人。

我採集的網站是大眾點評,想要得到50頁內所有醫院名稱,該醫院評論總數,醫院總體星級,各項評分,醫院評論的用戶名,評論內容,評論時間,用戶點評星級,獲贊數量和回應數量。

1、

首先我們先新建一個頻道,我給它命名為大眾點評,然後在頻道配置里輸入我們想要爬取數據的網址,需要在頻道配置處輸入想要得到數據的網址,大眾點評需要開啟cookie,「基本配置」-「頻道屬性」里能開啟cookie。

現在默認模板(1)就是我們要的網站頁面,滑鼠放在醫院標題處如圖,從左下角能看到醫院的網址連結。

現在點一下右上角的採集預覽,我們能得到整個頁面的所有網頁連結,下拉滾動條到這個位置就會發現跟上圖相同格式的連結,這就是我們需要的所有醫院的連結。

我們用不到的需要過濾一下,可以通過地址過濾和標題過濾方法篩選。

點擊軟體右上角模板抽取配置裡面的連結抽取,裡面有地址過濾和標題過濾兩個選項,點擊地址過濾,過濾規則選擇包含,過濾串內輸入想要得到的醫院連結,後面這串數字我們用「\d」表示,用「\e」表示結束,例如https://www.dianping.com/shop/\d\e,這樣就能採集網頁內所有這種格式的網頁連結。軟體右下角如圖:

2、

當我們想要採集的網頁下面有翻頁的連結,就必須配置翻頁。除了在右上角默認模板處抽取我們想要的得到的醫院連結外,還要再新建一個連結抽取,抽取頁面翻頁的地址。

我們繼續從採集預覽處得到翻頁的連結,過濾規則選擇包含,通過觀察發現幾個連結的相同點,輸入到過濾串里就能得到想要的翻頁連結了。如下圖:

下面我們隨便點進一個醫院主頁內,複製連結建立下一層級模板,在默認模板(2)的示例地址內輸入醫院主頁的連結,得到模板二

因為我們需要採集該醫院所有用戶評論,所以我們找到下面的「更多點評」,通過剛剛地址過濾的方法,過濾出更多點評的連結,並建立模板(3),示例地址輸入剛剛過濾的得到的更多點評的網址。

註:點擊連結抽取,看左下角關聯模板處,一定要關聯到下一層級的模板,如果是翻頁的連結抽取,要關聯自身模板,否則會數據採集失敗。

模板配置完了,我們下一步是建立表單,如下圖紅色字體我們能從模板二採集到,藍色字體我們能從模板三採集到,所以我們需要建立兩個表單

點擊表單配置,新建一個表單,添加一個網頁主鍵如圖,一定要勾選索引欄位,鍵值唯一,主鍵欄位三個選項,取值類型選擇網頁主鍵點擊確定。

然後添加下一個欄位如標題「title」

取值類型選擇「選區內全部文本」,變量類型選擇「string」,選擇合適的字符長度點擊確定。

這是我建立的兩個表單的所有欄位,表單名稱分別為「大眾點評1」、「大眾點評2」,建立好以後點擊保存即可。

點開模板配置,每一個模板對應相應的表單,右鍵模板二「添加數據抽取」,表單名稱選擇「大眾點評1」。

同樣在模板三處再添加另外一個數據抽取表單,添加好後如下圖所示:

例如單擊「title」,然後按住ctrl鍵同時滑鼠左鍵點擊對應標題,內容過多的話按住shift可以調整內容大小,選好後點擊保存即可。

全部選取完後點擊左上角的文件,然後全部保存,就完成啦!

下一步點擊數據,連接資料庫,直接點擊打開即可,然後再次點擊數據,選擇數據表,選擇剛剛新建兩個數據表後點擊創建表,創建好後勾選並確定,就可以進行數據採集了(如果表單有問題需要更改,改好後需要重新創建表單),速度慢可以點擊設置裡面的線程設置,設置多線程。

今天的分享就就到這裡了,我也是初學者可能用的不是特別好,希望能幫助到有需要的人,這個軟體確實對我的工作很有幫助,祝大家使用愉快!

相關文章

  1. 前嗅ForeSpider爬蟲軟體採集網頁中看不到的數據

    給大家介紹一款好用的爬蟲數據採集軟體. 1.前嗅ForeSpider數據採集系統,集成前嗅自主研發的數據採集系統.數據挖掘系統.數據分析引擎.資料庫和伺服器,實現數據從採集.挖掘.分析到入庫一步到位. ...
  2. 超好用的前嗅ForeSpider爬蟲軟體教程

    給大家介紹ForeSpider數據採集系統的使用教程.因為屬於專業性工具,所以除了幫助文檔外很少有使用教程. 跟之前使用過的其他爬蟲軟體對比發現,ForeSpider爬蟲有自己的內置資料庫,當然也支持 ...
  3. 如何爬取網頁數據

    Python是進行網頁爬蟲和網頁數據抓取的一個不錯語言.其中python也提供了不少模塊用於數據抓取.urllib是用於打開網頁連結的模塊,urlopen()函數用於打開網頁,bs4(Beautifu ...
  4. 圖解利用Web Scraper 抓取網站數據

    本篇經驗將和大家介紹利用Web Scraper 抓取網站數據,希望對大家的工作和學習有所幫助! 方法/步驟 Web Scraper插件安裝和界面介紹,參考如下經驗. 打開了 hao123 頁面,並且在 ...
  5. Excel如何抓取網站數據並設置自動更新實時數據

    網站發布的實時數據,往往是我們進行統計分析的重要信息源. 但是,每次都要複製網站上的數據然後粘貼到Excel,這樣操作會比較繁瑣. 其實,我們可以通過設置,實現讓Excel自動抓取網站的實時最新數據. ...
  6. python通過cookie爬取個人網站

    通過cookie獲取個人網站信息,並匹配出需要的關鍵字,這裡先以urllib+re模塊登陸網站為例 工具/原料 python的urllib2或request或httplib2包 解析內容需要使用正則表 ...
  7. java中從高德地圖爬取數據

    本人csdn博客地址:http://blog.csdn.net/java_wucao/article/details/77800891,也可查看 工具/原料 idea 高德地圖開發者帳號 maven ...
  8. 如何使用scrapy shell 爬取數據

    如何使用scrapy shell 爬取數據 工具/原料 電腦 cmd命令行 方法/步驟 第一步:我們首先切到命令行窗口,找到我們scrapy項目目錄. 第二步:我們直接在項目目錄中輸入scrapy s ...
  9. 如何利用python爬取數據並保存為word文檔

    如何利用python爬取數據並保存為word文檔?請看下面的經驗吧! 方法/步驟 在做爬取數據之前,你需要下載安裝兩個東西,一個是urllib,另外一個是python-docx. 然後在python的 ...
  10. 爬蟲是什麼?淺談爬蟲及繞過網站反爬取機制

    爬蟲是什麼呢,簡單而片面的說,爬蟲就是由計算機自動與伺服器交互獲取數據的工具.爬蟲的最基本就是get一個網頁的原始碼數據,如果更深入一些,就會出現和網頁進行POST交互,獲取伺服器接收POST請求後返 ...
  11. 如何查詢網站數據並優化關鍵詞

    對於站長朋友們,網站的各種數據尤其重要,因為那些數據直接影響著網站的生存,而優化關鍵詞也成為了重中之重,因為網站的生存主要就是靠流量,而若無能夠當家的關鍵詞,則流量上不去,網站的數據自然也就不好看了. ...
  12. 伺服器如何搬遷網站之網站數據備份

    伺服器搬遷網站一直是困擾剛剛製作網站朋友的難題,今天我們就來介紹下,如何在不同伺服器之間做網站的遷移,今天我們先講網站數據備份. 工具/原料 伺服器 網站數據 方法/步驟 首先我們登錄伺服器,點擊頁面 ...
  13. 伺服器網站數據同步雲盤備份使用攻略

    360雲盤PC版本號為3.4的最新版一經推出就受到了廣大站長朋友的追捧,此版新增同步文件夾功能,可以讓你輕鬆將伺服器上的數據同步備份到雲盤,只需以下簡單幾步設置. 首先確定伺服器需要同步的文件夾,我選 ...
  14. 怎樣快速查詢並分析網站數據

    從事SEO行業的新人,得知道怎麼分析網站優化的日常數據,比如收錄.外鏈.快照日期.關鍵詞排名等.這些都是一些最基本的知識,只會學會這些,才能去分析競爭對手的站點,找出他們不足並超越他們.下面ESH團隊 ...
  15. 分享網站建設前必須明白的三件事情

    現在我們做網站主要是為了什麼,是賺錢還是為了只是單純的個人興趣呢,當然了現在也是有很多的人得理由就是為了自己的夢想,或許這樣說,你會感覺我說的有點過火,但是有的就是這樣的事實,我們網站建設的理由有很多 ...
  16. 網站數據備份方案

    網站數據快速備份方案,網站數據自動備份方案 工具/原料 FTP信息 資料庫信息 多備份工具 方法/步驟 登錄多備份,首先確認要備份的環境及備份的內容 文件備份的話選擇文件備份,並選擇合適的備份方式 數 ...
  17. thinkPHP怎樣使用PHPExcel導出網站數據為excel

    在對網站數據進行處理時,經常需要將網站中的一些數據導出為execl格式文件,本篇文章將介紹如何在thinkPHP框架開發的網站中利用PHPExcel將所需數據導出為exexl格式的文件. 工具/原料 ...
  18. 網站建設前您有必要注意的9個問題

    網站製作流程您了解嗎?? 建立一個網站總的來說包括:申請域名.申請虛擬主機.網頁設計和維護以及網站的對外宣傳和推廣等幾大塊,這裡就分別說一下如何通過這幾個步驟來建立一個站點. 1.申請一個-合適的域名 ...
  19. 網站建設前不得不考慮的三大問題

    在網站建設前我們應該考慮哪些條件才可以建站.接下來,小編與大家分享三點網站建設前需要考慮的問題: 一.網站要做什麼類型的 常見的網站,是屬於商品類.諮詢類.新聞類等等.給網站規劃好,到底是要做哪類.這 ...
  20. 網站建設前做好網站策劃很重要

    一個網站的成功與否與建站前的網站規劃有著極為重要的關係.在建立網站前應明確建設網站的目的,確定網站的功能,確定網站規模.投入費用,進行必要的市場分析等.只有詳細的規劃,才能避免在網站建設中出現的很多問 ...