如何爬取網頁數據

Python是進行網頁爬蟲和網頁數據抓取的一個不錯語言。其中python也提供了不少模塊用於數據抓取。urllib是用於打開網頁連結的模塊,urlopen()函數用於打開網頁,bs4(BeautifulSoup模塊)用BeautifulSoup()函數處理返回html的數據。

工具/原料

python3.4
BeautifulSoup

方法/步驟

from urllib.request import urlopen

用於打開網頁

from urllib.error import HTTPError

用於處理連結異常

from bs4 import BeautifulSoup

用於處理html文檔

import re

用正則表達式匹配目標字符串

例子用關於抓取百度新聞網頁的某些圖片連結

from urllib.request import urlopen

from urllib.error import HTTPError

from bs4 import BeautifulSoup

import re

url="http://news.baidu.com/"

try:

html=urlopen(url)

except HTTPError as e:

print(e)

try:

bsObj=BeautifulSoup(html.read())

images=bsObj.findAll("img",{"src":re.compile("http://news.baidu.com.*")})

for image in images:

print(image["src"])

except AttributeError as e:

print(e)

import java.io.BufferedReader;

import java.io.IOException;

import java.io.InputStreamReader;

import java.net.HttpURLConnection;

import java.net.MalformedURLException;

import java.net.URL;

public class Capture {

public static void main(String[] args) throws MalformedURLException, IOException {

String strUrl ="http://news.baidu.com/";

URL url =new URL(strUrl);

HttpURLConnection httpConnection = (HttpURLConnection) url.openConnection();

InputStreamReader input = new InputStreamReader(httpConnection.getInputStream(),"utf-8");

BufferedReader bufferedReader = new BufferedReader(input);

String line ="";

StringBuilder stringBuilder = new StringBuilder();

while ((line =bufferedReader.readLine())!=null){

stringBuilder.append(line);

}

String string =stringBuilder.toString();

int begin =string.indexOf("<title>");

int end=string.indexOf("</title>");

System.out.println("IP address:"+string.substring(begin,end));

}

相關文章

  1. python使用requests爬取網頁出現中文亂碼

    在python中,若使用requests庫來抓取網頁,當遇到中文頁面時,容易出現亂碼問題.這是由於字符編碼問題引起的. 在requests中有提供相應的辦法,通過指定encoding,基本可以解決問題 ...
  2. Java 如何爬取網頁

    百度搜尋引擎的原理其中之一就是定期的派出網絡爬蟲到網際網路上去爬取網頁.我這裡用java寫了一個最簡單的小程序來實現這一功能. 工具/原料 Eclipse JDK 1.6 EditPlus 方法/步驟 ...
  3. 分析蜘蛛爬取網頁的優先方式

    1.進步頁面蜘蛛爬取率:大師知道蜘蛛爬取網頁分為廣度優先和深度優先,豈論是那種行動靠的但凡站內連結的公正組織,以是這一條的傳染感動大師理應讀比較懂得,只要進步了蜘蛛爬取頁面率高,威力包管你能更好的泡蜘 ...
  4. 使用八爪魚採集器抓取網頁數據

    php抓取網頁內容比較常用的是藉助第三方類編寫抓取代碼,其中QueryList是一個基於phpQuery的通用列表採集類,是一個簡單. 靈活.強大的採集工具,也比較常用,但是對於一些不用代碼想要抓取網 ...
  5. Excel如何抓取網頁數據之JSON數據抓取

    Excel 2013以後的版本提供了WEBSERVICE和FILTERXML函數可用於網頁數據抓取,但只能抓取XML格式的數據.而現在很多網站的網頁或接口返回的都是HTML或JSON數據,那麼如何精確 ...
  6. 如何爬取網站數據——前嗅ForeSpider使用教程

    前嗅forespider數據採集軟體的使用教程,可視化的軟體,簡單的操作,強大的功能,幫助不會爬蟲的人採集數據. 工具/原料 ForeSpider 方法/步驟 我們想要從網上獲取自己想要的數據,通常有 ...
  7. js如何抓取網頁數據

    js如何抓取網頁數據?下面我們來看看吧. 工具/原料 pc 方法/步驟 首先在根節點document中監聽所有需要抓取的事件. 在元素事件傳遞中,捕獲階段獲取事件信息,進行埋點. 通過getBound ...
  8. 如何用python抓取網頁數據

    可能很多小夥伴們不是很清楚如何用python抓取網頁數據,那麼具體應該怎麼做呢?感興趣的小夥伴們隨小編一起看看吧! 方法/步驟 在抓取網站中有兩個基本的任務: 加載網頁到一個 string 里. 從網 ...
  9. 零基礎,教您網頁數據抓取

    大數據時代,您還在煩惱數據從何而來?面對大量的網頁數據,您不知道如何處理?或者是為編寫爬蟲代碼而發愁?不管您是屬於哪一類,不管您是有基礎或是零基礎,只要您看完這篇經驗,數據將唾手可得,一切將變得無比簡 ...
  10. 如何通過Java代碼實現對網頁數據進行指定抓取

    如何通過Java代碼實現對網頁數據進行指定抓取   本次經驗中會使用到Jsoup.Jar包 工具/原料 Eclipse Jsoup.jar 方法/步驟 在工程中導入Jsoup.jar包 獲取網址url ...
  11. Java開發中如何實現高效對網頁數據抓取 Jsoup

    Java開發中如何實現高效對網頁數據抓取 Jsoup 工具/原料 Eclipss jsoup.jar 方法/步驟 本次經驗是通過導入外部Jar進行對網頁數據進行抓取,以下是我工程的分布圖. 本例子中是 ...
  12. java中從高德地圖爬取數據

    本人csdn博客地址:http://blog.csdn.net/java_wucao/article/details/77800891,也可查看 工具/原料 idea 高德地圖開發者帳號 maven ...
  13. 如何使用scrapy shell 爬取數據

    如何使用scrapy shell 爬取數據 工具/原料 電腦 cmd命令行 方法/步驟 第一步:我們首先切到命令行窗口,找到我們scrapy項目目錄. 第二步:我們直接在項目目錄中輸入scrapy s ...
  14. 如何利用python爬取數據並保存為word文檔

    如何利用python爬取數據並保存為word文檔?請看下面的經驗吧! 方法/步驟 在做爬取數據之前,你需要下載安裝兩個東西,一個是urllib,另外一個是python-docx. 然後在python的 ...
  15. PHP抓取網頁failed to open stream解決方案

    本教程完美解決PHP抓取網頁failed to open stream: HTTP request failed!遇到的問題. 工具/原料 PHP一系列軟體 電腦一台 方法/步驟 如圖所示:抓取失敗了 ...
  16. EXCEL2016導入網頁數據

    我們常常需要從網頁中提取數據進行分析,如分析股票收益,NBA球隊數據,宏觀經濟數據等,EXCEL能夠非常方便的抓取網頁數據,用於分析. 本例以抓取國家統計局網站上的數據為例子 http://www.s ...
  17. 搜尋引擎抓取網頁原理學習筆記

    做正規seo技術必會的搜尋引擎抓取網頁原理應該是很複雜的.可以寫洋洋灑灑的長篇論文.這裡就將我自己學習到的網頁抓取原理記錄一下.筆記應該不夠完整隻將重要過程做個介紹 步驟/方法 做正規seo技術必會的 ...
  18. 圖解Fiddler抓取Android數據包

    本篇經驗將和大家介紹Fiddler抓取Android數據包希望對大家的工作和學習有所幫助! 方法/步驟 電腦開啟wifi熱點 首先在電腦上下載一個wifi軟體,我這裡用的是獵豹wifi,電腦開啟wif ...
  19. 怎麼用Java程序抓取網頁原始碼?

    怎麼用java程序抓取網頁原始碼?如果抓取代碼都用程序來做的話,相信要快很多.程序如下:       import java.io.BufferedReader;import java.io.IOEx ...
  20. 如何用excel查詢網頁數據,並實時更新。

    我們經常會用到網頁數據,但是每次打開網頁查詢有很麻煩,並且,我們要求的數據是實時更新的,那麼通過什麼方法能達到這樣的目的呢?excel能幫你完美解決. 工具/原料 excel 方法/步驟 首先打開ex ...