前嗅ForeSpider教程:採集企業信息

本文主要介紹了前嗅ForeSpider教程採集企業信息的具體操作流程:

工具/原料

前嗅ForeSpider採集系統

第一步:新建任務

點擊左上角「加號」新建任務,如圖:

在彈窗里填寫採集地址,任務名稱,如圖:

點擊下一步,選擇進行數據抽取還是連結抽取,本次採集企業最新動態連結列表,所以點擊抽取連結,選擇連結列表,如圖:

完成之後,在模板抽取配置下生成兩個模板,默認模板:01和連結列表:02。模板1中的「連結列表」連結抽取已與模板2關聯,如圖4。如果配置的時候發現關聯有問題,可以自己進行更改。

第二步:使用定位過濾,得到列表連結

按住Ctrl+滑鼠左鍵,進行區域選擇,按住Shift+滑鼠左鍵,擴大選擇區域。點擊確認選區,如圖

點擊採集預覽,確認連結抽取是否正確,如圖:

第三步:在模板2添加示例地址,並添加連結抽取

將模板1過濾得到的任意一條連結,作為模板2的示例地址。如:http://blog.11467.com/b427516.htm,如圖:

新建連結抽取。直接點擊模板2,點擊上面「新建連結抽取」按鈕,得到連結抽取,如圖:

關聯模板:在軟體中模板的關聯關係,與網頁中連結跳轉的關係相同。

根據網頁跳轉規律,模板1中的「連結列表」連結抽取已與模板2關聯。如果配置的時候發現關聯有問題,可以自己進行更改。

第四步:使用定位過濾,得到列表連結

按住Ctrl+滑鼠左鍵,進行區域選擇,按住Shift+滑鼠左鍵,擴大選擇區域。點擊確認選區,如圖:

右擊模板預覽,查看連結抽取結果,如圖所示:

確認連結抽取是否正確,如圖:

第五步:新建模板3添加示例地址,並添加連結抽取

新建模板3,將模板2過濾得到的連結,作為模板3的示例地址。如:http://93358999.b2b.11467.com,如圖:

新建連結抽取。直接點擊模板3,點擊上面「新建連結抽取」按鈕,得到連結抽取,如圖:

關聯連結列表的「新建連結抽取」。

根據網頁跳轉規律,將模板2連結列表的「新建連結抽取」關聯模板3。如果配置的時候發現關聯有問題,可以自己進行更改,如圖:

第六步:使用定位過濾,得到導航列表的連結

按住Ctrl+滑鼠左鍵,進行區域選擇,按住Shift+滑鼠左鍵,擴大選擇區域。點擊確認選區,如圖:

右擊模板預覽,查看連結抽取結果,如圖:

確認連結抽取是否正確,如圖:

使用標題過濾,得到「聯繫我們」的連結,如圖:

第七步:新建模板4添加示例地址,並添加連結抽取

新建模板4,將模板3過濾得到的「聯繫我們」連結,作為模板4的示例地址。如:http://tianjin0311065.11467.com/contact.asp,如圖:

新建數據抽取。直接點擊模板3,點擊上面「新建數據抽取」按鈕,得到數據抽取,如圖:

關聯模板3的「新建連結抽取」。

根據網頁跳轉規律,將模板3的「新建連結抽取」關聯模板4。如果配置的時候發現關聯有問題,可以自己進行更改,如圖:

第八步:創建/選擇表單

在ForeSpider爬蟲中,表單是可以復用的,所以可以在數據表單出直接選擇之前建過的表單,也可以通過表單ID來進行查找並關聯數據表單。此處使用的是方法三。

方法一:通過下拉菜單或表單ID選擇已有表單

方法二:點擊創建表單進入快速建表頁面,新建表單,如圖:

方法三:點擊「採集配置」-「數據建表」,點擊采「採集表單」後面的,如圖:

第九步:配置表單

關聯表單,如圖:

取值方法:按住Ctrl+滑鼠左鍵,進行區域選擇,按住Shift+滑鼠左鍵,擴大選擇區域。person、tel、addr欄位,如圖:

intro_text欄位需要進行模板取值。

第十步:欄位取值

關聯表單,如圖:

取值方法:按住Ctrl+滑鼠左鍵,進行區域選擇,按住Shift+滑鼠左鍵,擴大選擇區域。person、tel、addr欄位,如圖:

intro_text欄位需要進行模板取值。

第十一步:創建新的模板,添加示例地址

表單intro_text欄位來自公司介紹,如圖:

圖中紅框部分為取值內容,如圖:

新建模板,添加「公司介紹」連結為示例地址,如:http://93358999.b2b.11467.com/about.asp(模板3右擊模板預覽,選擇全部連結),如圖:

直接點擊模板5,點擊上面「新建數據抽取」按鈕,得到數據抽取,如圖:

第十二步:創建/選擇表單

點擊「採集配置」-「數據建表」,點擊采「採集表單」後面的,如圖:

第十三步:配置表單

根據所需內容,配置表單欄位(即表頭),此處配置了「公司介紹」欄位intro_text表單如圖:

第十四步:關聯表單,完成「公司介紹」欄位抽取

點擊模板5,關聯表單,如圖:

使用欄位定位取值方法。按住Ctrl+滑鼠左鍵,進行區域選擇,按住Shift+滑鼠左鍵,擴大選擇區域,確認選區,如圖:

右擊模板預覽,如圖:

模板預覽結果,如圖:

第十五步:模板取值關聯

點擊模板4,點擊intro_text欄位,在紅框中填入「href=[5]」,並按住Ctrl+滑鼠左鍵,進行區域選擇,如圖37所示。「[ ]」中填寫模板ID。

點擊模板4,右擊模板預覽,如圖:

預覽結果如圖:

第十六步:採集預覽

點擊右上角採集預覽,如圖:

雙擊任意一條連結,看看是否可以得到和網頁對應的規整的數據,如圖:

本文內容整理自網絡, 文中所有觀點看法不代表淘大白的立場