前嗅ForeSpider採集連結/源碼/時間/地址等

前嗅ForeSpider採集網頁連結/源碼/時間/重定向地址等具體操作流程

工具/原料

前嗅ForeSpider採集系統

方法/步驟

第一步:新建任務

①點擊左上角「加號」新建任務,如圖1:

① 彈窗里填寫採集地址,任務名稱,如圖2:

② 點擊下一步,勾選抽取連結,選擇網頁內所有連結,如圖3:

④完成後模板抽取配置列表有一個模板,默認模板。默認模板下自動生成一個連結抽取,名稱為網頁全部連結,如4:

第二步:創建新的模板,並新建數據抽取

①模板配置,點擊「新建模板」按鈕,得到新建模板,如圖1。

②新建數據抽取。直接點擊模板二,點擊上面「新建數據抽取」按鈕,得到數據抽取,如圖2。

③關聯模板

在軟體中模板的關聯關係,與網頁中連結跳轉的關係相同。

根據網頁跳轉規律,將「網頁全部連結」關聯模板「新建模板02」,如圖3:

第三步:創建/選擇表單

①在ForeSpider爬蟲中,表單是可以復用的,所以可以在數據表單出直接選擇之前建過的表單,也可以通過表單ID來進行查找並關聯數據表單。此處使用的方法三,如圖8。

方法一:通過下拉菜單或表單ID選擇已有表單

方法二:點擊創建表單進入快速建表頁面,新建表單

方法三:點擊「採集配置」-「數據建表」,點擊采「採集表單」後面的如圖1。

②配置表單

根據所需內容,配置表單欄位(即表頭),此處配置了包括網頁主鍵、網頁創建時間、網頁獲取時間、網頁地址、全區內網頁源碼(包含當前標籤)、選取內全部文本、選取內網頁源碼以及網頁標題八個欄位,表單如圖2。

以下欄位為軟體自帶欄位類型,無需確定選取取值。

網頁主鍵:網頁唯一標識。

網頁創建時間:文檔創建或網頁發布的時間。

網頁獲取時間:ForeSpider採集該網頁的時間。

網頁地址:自動採集網頁的URL地址。

選區內網頁源碼(包含當前標籤):採集選區內全部原始碼,包含當前節點標籤等,即整個選區的原始碼。

選區內全部文本:最常用的類型。點擊Ctrl選擇綠框後,採集選區裡的全部內容

選區內網頁源碼:採集選區內全部原始碼,不包含當前節點標籤等。

網頁標題:採集網頁的標題。即網頁<title>中的內容。

③ 數據抽取連結處關聯表單。

第四步:採集預覽

①點擊擊右上角採集預覽,如圖1。

②雙擊任意一條連結,看看是否可以得到和網頁對應的規整的數據,如圖2、圖3。

本文內容整理自網絡, 文中所有觀點看法不代表淘大白的立場