用前嗅ForeSpider通過搜尋框檢索關鍵詞採集數據

以百度搜尋關鍵詞為例,用前嗅ForeSpider採集當前列表頁的正文數據。

工具/原料

前嗅ForeSpider採集系統

方法/步驟

第一步:新建任務

①點擊左上角「加號」新建任務,如圖1

②在彈窗里填寫採集地址、任務名稱,由於此次需要配置關鍵詞,所以在新建任務時,需要勾選一下「關鍵詞採集」如圖2

③點擊下一步,選擇進行數據抽取還是連結抽取,本次採集需要採集列表頁中正文的所有文本信息,所以此處需要勾選「抽取連結」-「普通翻頁」,如圖3

第二步:配置關鍵詞

①由於在創建任務時,選擇了關鍵詞採集,所以此時,顯示在任務層,如圖1

②按照右側關鍵詞配置步驟的提示(每個步驟按鈕可以點擊,如無此操作步驟,可直接跳過),開始配置關鍵詞,如圖2

<1>點擊關鍵詞,按照操作提示,按住ctrl+滑鼠左鍵點擊搜尋框

<2>在完成步驟時,按住ctrl+滑鼠左鍵點擊搜尋按鈕,如圖3

③關鍵詞列表處,填寫關鍵詞,並點擊保存,如圖3

第三步:通過標題過濾,過濾翻頁連結

①點擊採集預覽,我們可以發現,翻頁連結即為名為:「下一頁」的連結。對於翻頁,只需要取到標題名為「下一頁」的連結即可。

②應用標題過濾,過濾規則選擇「包含」,過濾串填寫「下一頁」即可。如圖1

③擊採集預覽查看是否過濾成功,如圖2

第四步:關聯模板

在軟體中模板的關聯關係,與網頁中連結跳轉的關係相同。

①關聯「連結列表」

根據網頁跳轉規律,將「連結列表」關聯模板二「連結列表:02」,此處由於我們開始就選擇了創建列表連結,所以軟體自動關聯好了模板二。如果配置的時候發現關聯有問題,可以自己進行更改,如圖1

②關聯「翻頁」(對應第四步創建翻頁連結抽取)

情況一:創建模板或通過嚮導,創建的翻頁連結抽取,會默認關聯模板一,即當前頁模板。

情況二:手動點擊按鈕創建翻頁連結抽取,需要手動關聯,如圖2

第五步:填寫模板二示例地址並新建數據抽取

①模板一過濾得到的任意一條連結,作為模板二的示例地址,見圖1

②新建數據抽取

方法一:通過點擊「下一步」後勾選抽取數據,再次點擊「下一步」得到數據抽取,如圖2

方法二:直接點擊模板二,點擊上面「新建數據抽取」按鈕,得到數據抽取,如圖2

第六步:創建/選擇表單

在ForeSpider爬蟲中,表單是可以復用的,所以可以在數據表單出直接選擇之前建過的表單,也可以通過表單ID來進行查找並關聯數據表單。此處使用方法三。

方法一:通過下拉菜單或表單ID選擇已有表單

方法二:點擊創建表單進入快速建表頁面,新建表單

方法三:點擊「採集配置」-「數據建表」,點擊采「採集表單」創建表單,如圖所示

第七步:配置表單

根據所需內容,配置表單欄位(即表頭),此處配置了包括網頁標題、網頁地址、全部文本三個欄位,表單如圖

第八步:欄位取值

取值方法:由於網頁標題和網頁地址是可以自動取值的欄位,所以我們只需要取到網頁文本即可。

text欄位,如圖

第九步:模板預覽

① 標右鍵點擊「數據抽取」,然後點擊「模板預覽」,如圖1

② 覽結果如圖2

第十步:採集預覽

① 擊右上角採集預覽,如圖1

② 擊任意一條連結,看看是否可以得到和網頁對應的規整的數據,如圖2

本文內容整理自網絡, 文中所有觀點看法不代表淘大白的立場