前嗅ForeSpider教程:採集分類信息(以58為例)

本篇文章主要介紹了用前嗅ForeSpider採集分類信息的詳細操作流程:

工具/原料

前嗅ForeSpider採集系統

第一步:新建任務

點擊左上角「加號」新建任務,如圖:

在彈窗里填寫採集地址,任務名稱,如圖:

點擊下一步,選擇進行數據抽取還是連結抽取,首先採集58同城·便當分類下的分類列表的連結,所以點擊抽取連結,如圖:

完成後模板抽取配置列表有一個模板,默認模板,如圖:

第二步:創建連結抽取,通過定位過濾得到所需連結

直接點擊「默認模板:01」,點擊上面「新建連結抽取」按鈕,得到連結抽取,如圖:

按住Ctrl+滑鼠左鍵,進行區域選擇,按住Shift+滑鼠左鍵,擴大選擇區域,點擊「確認選區」按鈕,如圖:

點擊採集預覽確認連結是否過濾完全,如圖:

第三步:創建新模板,並添加連結抽取

在模板配置,點擊「新建模板」按鈕,得到新建模板,如圖:

將模板一過濾得到的任意一條連結,作為模板二的示例地址。如:https://biandang.58.com/cn/shebaoyiliao/, 見圖:

新建數據抽取。直接點擊模板二,點擊上面「新建數據抽取」按鈕,得到數據抽取,如圖:

關聯模板

在軟體中模板的關聯關係,與網頁中連結跳轉的關係相同。

根據網頁跳轉規律,將模板一的「新建連結抽取」關聯模板二,如圖:

第四步:通過定位過濾得到文章列表所需連結

按住Ctrl+滑鼠左鍵,進行區域選擇,按住Shift+滑鼠左鍵,擴大選擇區域,點擊「確認選區」按鈕,如圖:

滑鼠右鍵點擊模板二,模板預覽,如圖:

確認連結是否過濾完全,如圖:

第五步:創建新的模板,並新建數據抽取

在模板配置,點擊「新建模板」按鈕,得到新建模板,重命名為正文數據模板,如圖:

新建數據抽取。直接點擊模板二,點擊上面「新建數據抽取」按鈕,得到數據抽取,如圖:

將模板二過濾得到的任意一條連結,作為模板三的示例地址。如:https://biandang.58.com/cn/chujingrujing/34968880434256x.shtml, 見圖:

關聯模板

在軟體中模板的關聯關係,與網頁中連結跳轉的關係相同。

根據網頁跳轉規律,將模板二「新建連結抽取」關聯模板三,如圖:

第六步:創建/選擇表單

在ForeSpider爬蟲中,表單是可以復用的,所以可以在數據表單出直接選擇之前建過的表單,也可以通過表單ID來進行查找並關聯數據表單。此處使用的是方法三。

方法一:通過下拉菜單或表單ID選擇已有表單

方法二:點擊創建表單進入快速建表頁面,新建表單。

方法三:點擊「採集配置」-「數據建表」,點擊采「採集表單」後面的如圖:

第七步:配置表單

根據所需內容,配置表單欄位(即表頭),此處配置了包括網頁主鍵、文章標題、訪問量、發布時間、文本內容5個欄位,表單如圖:

第八步:欄位取值

取值方法:按住Ctrl+滑鼠左鍵,進行區域選擇,按住Shift+滑鼠左鍵,擴大選擇區域。點擊:「確認選區」按鈕,確認操作

tit、read_num、pub_date、text欄位,如圖:

第九步:模板預覽

滑鼠右鍵點擊模板三,然後點擊「模板預覽」,如圖:

預覽結果如圖:

第十步:採集預覽

點擊右上角採集預覽,如圖:

雙擊任意一條連結,看看是否可以得到和網頁對應的規整的數據,如圖:

本文內容整理自網絡, 文中所有觀點看法不代表淘大白的立場