前嗅ForeSpider教程:通過連結列表採集正文數據

前嗅ForeSpider爬蟲改版之後,好像變得很好用。發個教程給大家看一下,本文介紹的是,如何通過列表頁採集正文數據。

工具/原料

前嗅ForeSpider採集系統

第一步:新建任務

點擊左上角「加號」新建任務,如圖1:

在彈窗里填寫採集地址,任務名稱如圖2:

點擊下一步,選擇進行數據抽取還是連結抽取,本次採集當前列表頁新聞的正文數據,正文數據是通過點擊列表連結進入的,所以本次需要抽取列表連結,所以點擊抽取連結,如圖3:

第二步:通過智能過濾,得到所需連結。

按住Ctrl+滑鼠左鍵點擊所需連結;

點擊「智能過濾」按鈕,如圖4:

第三步:採集預覽確認連結

點擊採集預覽確認連結是否過濾完全,如圖5

第四步:創建翻頁連結抽取

方法一:創建任務,勾選連結抽取,直接選擇連結列表和普通翻頁,如圖6

方法二:如果創建任務時,只勾選了連結列表,可以點擊上一步,回到模板層,補選翻頁連結抽取,點擊下一步,創建翻頁連結

方法三:直接點擊模板二,點擊上面「新建連結抽取」按鈕,得到連結抽取,如圖7

第五步:通過標題過濾,過濾翻頁連結

點擊採集預覽,我們可以發現,翻頁連結即為名為上一頁、下一頁兩條連結。對於翻頁,只需要取到標題名為「下一頁」的連結即可。

這裡應用標題過濾,過濾規則選擇「包含」,過濾串填寫「下一頁」即可。如圖8

點擊採集預覽查看是否過濾成功,如圖9

第六步:關聯模板

在軟體中模板的關聯關係,與網頁中連結跳轉的關係相同。

①關聯「連結列表」

根據網頁跳轉規律,將「連結列表」關聯模板二「連結列表:02」,此處由於我們開始就選擇了創建列表連結,所以軟體自動關聯好了模板二。如果配置的時候發現關聯有問題,可以自己進行更改,如圖10

②關聯「翻頁」(對應第四步創建翻頁連結抽取)

情況一:創建模板或通過嚮導,創建的翻頁連結抽取,會默認關聯模板一,即當前頁模板,如圖11。

情況二:手動點擊按鈕創建翻頁連結抽取,需要手動關聯,如圖11。

第七步:填寫模板二示例地址並新建數據抽取

將模板一過濾得到的任意一條連結,作為模板二的示例地址。如:http://pl.ifeng.com/opinion/zhengnengliang/497/1.shtml, 見圖12:

新建數據抽取

方法一:通過點擊「下一步」後勾選抽取數據,再次點擊「下一步」得到數據抽取,如圖13

方法二:直接點擊模板二,點擊上面「新建數據抽取」按鈕,得到數據抽取,如圖13

第八步:創建/選擇表單

在ForeSpider爬蟲中,表單是可以復用的,所以可以在數據表單出直接選擇之前建過的表單,也可以通過表單ID來進行查找並關聯數據表單。此處使用的是之前建過的鳳凰網的表單,如圖14

方法一:通過下拉菜單或表單ID選擇已有表單

方法二:點擊創建表單進入快速建表頁面,新建表單

方法三:點擊「採集配置」-「數據建表」,點擊采「採集表單」後面的如圖15

第九步:配置表單

根據所需內容,配置表單欄位(即表頭),此處配置了包括標題、作者、發布時間、文本內容以及網址五個欄位,表單如圖16

第十步:欄位取值

取值方法:按住Ctrl+滑鼠左鍵,進行區域選擇,按住Shift+滑鼠左鍵,擴大選擇區域。

title欄位,如圖17

第十一步:模板預覽

滑鼠右鍵點擊「數據抽取」,然後點擊「模板預覽」,如圖18

預覽結果如圖19

第十二步:採集預覽

點擊右上角採集預覽,如圖20

雙擊任意一條連結,看看是否可以得到和網頁對應的規整的數據,如圖21

本文內容整理自網絡, 文中所有觀點看法不代表淘大白的立場