如何在分區連結採集正文數據——前嗅ForeSpider

以圖中網站(金融經濟)為例,通過當前要聞分區連結到新聞列表頁採集正文數據。

工具/原料

前嗅ForeSpider

第一步:新建任務

點擊左上角「加號」新建任務,如圖所示。

在彈窗里填寫採集地址,任務名稱,如圖所示。

點擊下一步,選擇進行數據抽取還是連結抽取,本次採集要聞列表頁新聞的正文數據,正文數據是通過點擊列表連結進入的,所以本次需要抽取列表連結,所以點擊抽取連結,如圖所示:

第二步:通過地址過濾,得到所需的分區連結。

點擊採集預覽,在採集預覽中有於目標連結相似的其他連結,可通過地址過濾得到分區連結。找到所需要的分區連結,區別於其他連結,右擊複製連結,如圖所示。

勾選地址過濾,過濾規則選擇包含,將複製的目標地址粘入,得到要聞分區連結,點擊保存,如圖所示。

點擊採集預覽確認連結是否過濾完全,如圖所示

第三步:填寫模板二示例地址並新建數據抽取

將模板一過濾得到分區連結,作為模板二的示例地址,如圖所示。

創建列表連結抽取、翻頁連結抽取。直接點擊模板二,點擊上面「新建連結抽取」按鈕,得到連結抽取,並重命名,如圖所示。

進行列表連結抽取,按住Ctrl+滑鼠左鍵,進行區域選擇,按住Shift+滑鼠左鍵,擴大選擇區域,點擊「確認選區」按鈕,如圖所示。

點擊採集預覽確認連結是否過濾完全,如圖所示。

第四步:通過標題過濾,過濾翻頁連結

點擊採集預覽,在採集預覽中有於目標連結相似的其他連結,可通過地址過濾得到列表連結。找到所需要的列表連結,觀察得出所需要的目標連結都包含"http://news.cnstock.com/news/sns_qy/+數字",使用過濾串\d得到所需要的連結。右擊複製連結,如圖所示。

過濾串規則說明:\d    表示一串(個)數字

②勾選地址過濾,過濾規則選擇包含,填入「http://news.cnstock.com/news/sns_qy/\d」,得到列表連結,如圖所示。

點擊模板預覽,選擇翻頁連結抽取,確認連結是否過濾完全,如圖所示。

第五步:創建新的模板,並新建數據抽取

在模板配置,點擊「新建模板」按鈕,得到新建模板,重命名為正文數據模板,如圖所示。

將模板二新建連結抽取過濾得到的任意一條連結,作為模板三的示例地址,如圖所示。

新建數據抽取。直接點擊模板三,點擊上面「新建數據抽取」按鈕,得到數據抽取,如圖所示。

關聯模板

在軟體中模板的關聯關係,與網頁中連結跳轉的關係相同。

根據網頁跳轉規律,將「新建連結抽取」關聯模板「新建模板:03」,如圖所示

第六步:創建/選擇表單

①在ForeSpider爬蟲中,表單是可以復用的,所以可以在數據表單出直接選擇之前建過的表單,也可以通過表單ID來進行查找並關聯數據表單。此處使用的方法三。

方法一:通過下拉菜單或表單ID選擇已有表單

方法二:點擊創建表單進入快速建表頁面,新建表單

方法三:點擊「採集配置」-「數據建表」,點擊采「採集表單」後面的如圖所示。

配置表單

根據所需內容,配置表單欄位(即表頭),此處配置了包括網頁主鍵、標題、發布時間、來源、作者、正文內容、採集地址共7個欄位,右上角保存,表單如圖所示。

在數據抽取連結處關聯表單,如圖所示。

第七步:欄位取值

取值方法:按住Ctrl+滑鼠左鍵,進行區域選擇,按住Shift+滑鼠左鍵,擴大選擇區域。

title欄位,如圖所示。

第八步:模板預覽

滑鼠右鍵點擊「數據抽取」,然後點擊「模板預覽」,如圖所示。

②預覽結果如圖所示。

第九步:採集預覽

點擊右上角採集預覽,如圖所示。

雙擊任意一條連結,看看是否可以得到和網頁對應的規整的數據,如圖所示。

本文內容整理自網絡, 文中所有觀點看法不代表淘大白的立場