如何用python抓取網頁數據

可能很多小夥伴們不是很清楚如何用python抓取網頁數據,那麼具體應該怎麼做呢?感興趣的小夥伴們隨小編一起看看吧!

方法/步驟

在抓取網站中有兩個基本的任務:

加載網頁到一個 string 里。

從網頁中解析 HTML 來定位感興趣的位置。

Python 為上面兩個任務提供了兩個超棒的工具。我將使用 requests 去加載網頁,用 BeautifulSoup 去做解析。

我們可以把上面兩個包放到一個虛擬環境:

$ mkdir pycon-scraper$ virtualenv venv$ source venv/bin/activate(venv) $ pip install requests beautifulsoup4

如果使用的是 Windows 作業系統,注意上面虛擬環境的激活命令是不同的,你應該使用venv\Scripts\activate。

基本的抓取技術

在寫一個爬蟲腳本時,第一件事情就是手動觀察要抓取的頁面來確定數據如何定位。

首先,我們要看一看在 http://pyvideo.org/category/50/pycon-us-2014 上的 PyCon 大會視頻列表。檢查這個頁面的 HTML 原始碼我們發現視頻列表的結果差不多是長這樣的:

<div id="video-summary-content">    <div class="video-summary">    <!-- first video -->        <div class="thumbnail-data">...</div>        <div class="video-summary-data">            <div>                <strong><a href="#link to video page#">#title#</a></strong>            </div>        </div>    </div>    <div class="video-summary">    <!-- second video -->        ...    </div>    ...</div>

那麼第一個任務就是加載這個頁面,然後抽取每個單獨頁面的連結,因為到 YouTube 視頻的連結都在這些單獨頁面上。

相關文章

  1. 使用八爪魚採集器抓取網頁數據

    php抓取網頁內容比較常用的是藉助第三方類編寫抓取代碼,其中QueryList是一個基於phpQuery的通用列表採集類,是一個簡單. 靈活.強大的採集工具,也比較常用,但是對於一些不用代碼想要抓取網 ...
  2. Excel如何抓取網頁數據之JSON數據抓取

    Excel 2013以後的版本提供了WEBSERVICE和FILTERXML函數可用於網頁數據抓取,但只能抓取XML格式的數據.而現在很多網站的網頁或接口返回的都是HTML或JSON數據,那麼如何精確 ...
  3. js如何抓取網頁數據

    js如何抓取網頁數據?下面我們來看看吧. 工具/原料 pc 方法/步驟 首先在根節點document中監聽所有需要抓取的事件. 在元素事件傳遞中,捕獲階段獲取事件信息,進行埋點. 通過getBound ...
  4. 使用簡數採集平台抓取網頁數據

    簡數採集平台特點: --採集不需安裝任何客戶端,在線可視化點選: --集成智能提取引擎(國內獨家),自動識別數據和規則,甚至不需修改即可開始採集; --圖片下載支持存儲到:阿里雲OSS.七牛雲.騰訊雲 ...
  5. 簡數採集平台抓取網頁數據-教程

    本文介紹如何使用簡數採集平台抓取網頁數據,內容偏向基礎部分: 簡數採集平台是一個在線配置和雲採集的網頁數據採集和發布平台,無需安裝客戶端. 工具/原料 瀏覽器 方法/步驟 首先搜尋簡數數據採集平台,進 ...
  6. 如何用python爬取網頁製作電子書

    本文介紹,用Python抓取網頁小說,製作電子書的方法. 本文嘗試著抓取<tdtsg>的第一章. 工具/原料 電腦 Anaconda(Python3.6) 方法/步驟 我下載電子書,一般是 ...
  7. vba如何抓取網頁數據

    vba如何抓取網頁數據 工具/原料 vba 方法/步驟 1.實現把單元格內容清空的代碼如下 2.定義網址的代碼如下 3.實現創建對象HTML的方法代碼 4.發送請求和等待請求的方法代碼 5.實現定義數 ...
  8. 動態數據、防盜鏈的網站如何用Excel抓取

    用excel的宏代碼是可以簡單的抓取靜態網頁的數據的,但是在形形色色的網站中總有些異類,這些網站的數據是通過外部的js文件生成的,而這個js更會是進行過防盜鏈處理的.以和訊博客為例,網站中我們需要閱讀 ...
  9. 如何用Wireshark抓取指定類型或指定埠數據包

    Wireshark是一款非常方便的網絡抓包軟體,可以按照類型抓取TCP,UDP,以及HTTP,等不同類型的數據包,對我們分析數據包十分有幫助,下面小編就帶大家一塊了解一下Wireshark的使用吧. ...
  10. 如何用VBA抓取翻譯網頁的內容

    如何用VBA抓取翻譯網頁的內容 工具/原料 VBA 方法一:GET和POST抓取方式 1.使用GET方式抓取網頁數據方法代碼 2.對json數據的處理方法代碼 3.使用POST方式抓取網頁數據方法代碼 ...
  11. PHP抓取網頁failed to open stream解決方案

    本教程完美解決PHP抓取網頁failed to open stream: HTTP request failed!遇到的問題. 工具/原料 PHP一系列軟體 電腦一台 方法/步驟 如圖所示:抓取失敗了 ...
  12. 搜尋引擎抓取網頁原理學習筆記

    做正規seo技術必會的搜尋引擎抓取網頁原理應該是很複雜的.可以寫洋洋灑灑的長篇論文.這裡就將我自己學習到的網頁抓取原理記錄一下.筆記應該不夠完整隻將重要過程做個介紹 步驟/方法 做正規seo技術必會的 ...
  13. 圖解Fiddler抓取Android數據包

    本篇經驗將和大家介紹Fiddler抓取Android數據包希望對大家的工作和學習有所幫助! 方法/步驟 電腦開啟wifi熱點 首先在電腦上下載一個wifi軟體,我這裡用的是獵豹wifi,電腦開啟wif ...
  14. 怎麼用Java程序抓取網頁原始碼?

    怎麼用java程序抓取網頁原始碼?如果抓取代碼都用程序來做的話,相信要快很多.程序如下:       import java.io.BufferedReader;import java.io.IOEx ...
  15. 一次抓取網頁中所有圖片

    一次抓取網頁中所有圖片 我們上網找素材的時候,經常會遇到一些網頁裡面用了很多自己能夠用到的圖片,但是每一個都要單擊右鍵,然後圖片另存為,很是麻煩.其實藉助SnagIt抓圖軟體可以一次抓取網頁內所有圖片 ...
  16. 國美商品如何抓取生成數據包

    全球B2B電子商務交易一直占據主導地位,2002年至今,呈現持續高速增長態勢,2007年全球B2B交易額達到8.3萬億美元,預計在未來幾年將保持40%以上的增長率,到2010年B2B交易額將達到26萬 ...
  17. 如何java寫/實現網絡爬蟲抓取網頁

    很多時候我們需要一些數據或者信息,而這些信息可能是收費的,不公開的,也可能是信息量比較大,如果單純靠我們手工來做的話可能比較浪費時間,所以我們需要寫一個網絡爬蟲,高效地將自己需要的信息抓取下來,在這裡 ...
  18. 如何抓取網絡數據包

    抓包是故障定位中的重要手段之一,不會這個,基本連基本的維護都幹不了. 工具/原料 ethereal 方法/步驟 安裝抓包軟體,win自帶也有抓包工具,我裝了比較通用的ethereal,抓包的結果基本所 ...
  19. 小樂圖客攻略:[16]如何抓取網頁CSS背景圖

    我們知道在網頁取圖時,經常遇到一些使用小樂圖客取不到的圖.這時就需要考慮這些圖片是否屬於CSS背景圖,實際圖片地址是否隱藏在CSS文件中.本文分享給大家如何批量從網站CSS文件中抓取背景圖的方法. 工 ...
  20. 搜尋引擎抓取網頁的方法

    愈來愈多的站長加入到了seo的行列之中,新站長需要知道很多的基礎知識,才能開始優化之旅,有很多半罐子的理論有時會誤導你,網站優化給新手站長推薦Google給網站管理員的網站站長指南.這是一本簡潔的精確 ...