建站之路028火車頭採集器抓取網頁文章

火車頭採集器是一款網頁數據採集器,它可以快速的對網頁上數據信息進行規範性的採集,包括圖片,文字,表格,連結,手機,郵箱等.實現準確高效的實時抓取數據

擁有強大的採集功能,能夠採集那些需要登陸才能查看的內容信息,能夠解析文件真實地址並且下載。

同時支持採集數據直接入庫和模仿手工發布等許多功能特點,可以完成您在瀏覽器內能看到的各類信息的提取。

工具/原料

火車頭採集器

方法/步驟

百度搜尋下載火車頭採集器,然後運行LocoyPlatform.exe程序

打開火車頭採集器之後新建一個分組,然後點擊分組再創建新任務

重點來了,根據軟體提示一步步操作,首先我們要設置採集網址規則,

小范在寫了些文章,試試能否提取下來,打開一篇經驗,複製連結

在火車頭採集器中添加採集地址,然後點擊「添加」按鈕加入採集列表

在多級網址獲取處點擊「添加」,自動分析網址中的子連結,同時我們為網址獲取提供提取範圍

回到經驗頁面,在內容選擇內容第一段,然後再原始碼中找到相應的位置

找到文章第一段內容所在位置,在選取文字前的代碼,這裡小范選的是<meta name="keywords",將這段代碼在搜尋一遍,看下是否是獨一無二的,可以的話就加入火車頭採集器中

同樣的原理將文章的尾部也提取一段文字進行查找,並提取一段唯一的結束代碼,小范提取的是<span class="prompt-ico">

設置好之後保存,我們來測試下網址採集,看看是不是採集到了當前網址及其子連接

接著我們進入第二步,設置採集內容規則,這裡我們主要是來設置提取的規則,告訴火車頭採集器從哪裡開始採集,方法和之前的採集範圍設定是一樣的,只是這裡分的比較細。

標題、內容采、作者、時間等等,可以分開來提取

標題採集,這裡我們選用「前後截取」方式進行採集,直接用<title >標籤提取時標題會添加_,所以我們在下面再添加個替換,把_替換成空字符即可。

內容提取,選擇正文首尾內容然後再原始碼中查找對應的標籤,然後我們來測試下採集效果,這是我們採集到的內容,可以看出來採集到的是原始碼中的內容。

這裡我們繼續第三步,將文件保存到本地Word中試試,完成配置後保存設置即可

回到主頁,我們開始執行採集任務,看看採集效果如何

這樣就可以提取到網站的內容了,但是提取比較粗糙,格式都亂了,而且有很多多於的代碼,所以要想完整準確的提取正文,還需要多下功夫,慢慢調整規則。

相關文章

  1. 使用八爪魚採集器抓取網頁數據

    php抓取網頁內容比較常用的是藉助第三方類編寫抓取代碼,其中QueryList是一個基於phpQuery的通用列表採集類,是一個簡單. 靈活.強大的採集工具,也比較常用,但是對於一些不用代碼想要抓取網 ...
  2. 用爬一爬採集器抓取拉勾網招聘數據

    在用過多個數據採集器之後,感受到了各採集器的優缺點.對於編程基礎不是很強的數據分析人員來說,這款數據採集器簡直像是量身定做.辛辛苦苦寫了圖文教程,分享給大家. 今天的例子是招聘網站 方法/步驟 打開需 ...
  3. 使用簡數採集平台抓取網頁數據

    簡數採集平台特點: --採集不需安裝任何客戶端,在線可視化點選: --集成智能提取引擎(國內獨家),自動識別數據和規則,甚至不需修改即可開始採集; --圖片下載支持存儲到:阿里雲OSS.七牛雲.騰訊雲 ...
  4. 簡數採集平台抓取網頁數據-教程

    本文介紹如何使用簡數採集平台抓取網頁數據,內容偏向基礎部分: 簡數採集平台是一個在線配置和雲採集的網頁數據採集和發布平台,無需安裝客戶端. 工具/原料 瀏覽器 方法/步驟 首先搜尋簡數數據採集平台,進 ...
  5. 火車頭採集器7.6教程

    1.首先請下載採集發布WEB在線模塊或者自己編輯; 2.然後啟動火車頭採集器7.6; 3.點擊-工具-WEB發布配置管理--選擇WEB在線發布模塊--添寫編碼方式--網站根地址--登錄用戶及密碼等: ...
  6. 火車頭採集器zblog php 1.4發布模塊設置

    火車頭採集器zblog php 1.4發布模塊設置,火車頭是一款強大的採集器,本文介紹zblog程序發布模塊的設置. 工具/原料 火車頭採集器 zblog發布模塊 方法/步驟 1.打開火車頭採集軟體, ...
  7. 火車頭採集器如何過濾內容中的垃圾信息

    在使用火車頭採集器的時候,為了避免採集到一些廣告和同類網站的連結地址需要在設置採集規則的時候過濾掉一些不必要的標籤,下面小編來告訴大家如何過濾採集內容中的廣告標籤和垃圾連結 工具/原料 火車頭採集器 ...
  8. 火車頭採集器如何實現泛採集不同網站的新聞內容

    火車頭採集器是一個很強大的網絡採集工具,很多網絡從業者都用來採集信息和新聞,通常一個規則只能採集一個網站的頁面,如何做到一個規則採集不同網站頁面的信息內容呢,今天小編在就在給不會的同學講一下,如何利用 ...
  9. 如何設置火車頭採集器文件保存目錄

    使用火車頭採集器時,有時候需要採集一些圖片和一些文件,那麼在下載保存文件的時候如何批量規定下載文件的保存目錄呢,下面跟小編一起學習一下: 工具/原料 火車頭採集器 電腦 方法/步驟 打開火車頭採集器, ...
  10. 火車頭採集器教程

    火車頭是比較火的採集器,弄懂採集器的運行原理比較重要,那麼火車頭的採集器基本的採集方法是什麼呢,我給講講免費版的基本採集方法. 工具/原料 火車頭採集器 火車頭採集器教程 下載安裝火車頭採集器,有付費 ...
  11. phpcms v9火車頭採集器接口設置圖文講解

    作為網編,我也是第一次使用火車頭採集器,文中可能很多方面寫得不一定很全面.前幾天學習phpcms v9用火車頭採集時也是無從下手,真所謂叫天天不應,問技術大神別人不理,百度搜了無數次,案例很多,或語焉 ...
  12. 火車頭採集器採集文章教程

    有時候我們看到一個網站的文章,想要把這些文章保存下來,一篇一篇的複製保存很麻煩,這個時候就需要用到火車頭採集器把文章採集下來保存了.下面介紹一下如何用火車頭採集器採集文章. 工具/原料 火車頭採集器 ...
  13. v9新版火車頭採集器教程

    v9新版火車頭採集器規則怎麼寫?想要了解v9新版火車頭採集器教程請關注我 工具/原料 火車頭採集器 步驟(1)下載火車頭採集器 進行點擊下載"火車頭採集器",註冊帳號,如下圖: 步 ...
  14. 火車頭採集器使用教程

    對SEO人員來說,火車頭是常用的採集工具,學會熟練的使用火車頭採集器也會讓SEO人員工作起來事半功倍.下面我來詳細演示火車頭採集器的使用方法. 工具/原料 火車頭採集器(免費版) 方法/步驟 下載安裝 ...
  15. 火車頭採集器採集文章內容[精編圖文版]

    之前,已經為大家分享了兩篇關於火車頭採集器的圖文教程:火車頭採集器安裝流程[精編圖文版] 和火車頭採集器採集文章網址[精編圖文版] ,關於軟體安裝和採集文章網址在這裡就不再講解,今天與大家一起耿分享火 ...
  16. 火車頭採集器將HTML轉為UBB發布到Discuz的方法

    火車頭採集器相信各位站長都有用過,我這幾天也在用,目前使用的是火車頭採集器v7.6免費版,想採集數據並發布到到discuz x3.2的論壇中,採集後html代碼只保留了段落代碼<p>.換行 ...
  17. 火車頭採集器採集post方式分頁的列表的採集教程

    何謂post才能得到列表,就是一般用了ajax或.NET中的一些技術當你請求新內容時,頁面只進行局部刷新,地址欄中的URL不變.我們處理此類採集時的思路就是用抓包工具,截取請求時提交的內容找出共同特點 ...
  18. 如何設置火車頭採集器發布時間間隔

    火車頭採集器在發布大量數據的時候會出現彈出的現象,為避免這種現象需要將發布的時間間隔設置在一定的時間範圍內,下面和大家說下如何設置火車頭採集器發布的時間間隔設置 工具/原料 電腦 火車頭採集器 方法/ ...
  19. 火車頭採集器安裝流程[精編圖文版]

    火車頭採集器是一款非常實用的站長工具,具有自動採集和發布的雙重功能得到了廣大站長的一致好評,三目童子為了幫助新手站長學習火車頭採集器,特別編寫了<三目學院之火車頭採集教程系列>.今天是系列 ...
  20. 9SiR火車頭採集器教程:[2]怎樣導入規則

    自從開始承接數據採集業務以來,定製火車頭採集規則的客戶特別多,其中很大一部分都是新手朋友們,連怎樣導入規則都不會,經常需要發起遠程協助,有的甚至乾脆付費代采數據.為了減少不必要的麻煩,也為了減少客戶不 ...