如何爬取網頁數據

Python是進行網頁爬蟲和網頁數據抓取的一個不錯語言。其中python也提供了不少模塊用於數據抓取。urllib是用於打開網頁連結的模塊,urlopen()函數用於打開網頁,bs4(BeautifulSoup模塊)用BeautifulSoup()函數處理返回html的數據。

工具/原料

python3.4
BeautifulSoup

方法/步驟

from urllib.request import urlopen

用於打開網頁

from urllib.error import HTTPError

用於處理連結異常

from bs4 import BeautifulSoup

用於處理html文檔

import re

用正則表達式匹配目標字符串

例子用關於抓取百度新聞網頁的某些圖片連結

from urllib.request import urlopen

from urllib.error import HTTPError

from bs4 import BeautifulSoup

import re

url="http://news.baidu.com/"

try:

html=urlopen(url)

except HTTPError as e:

print(e)

try:

bsObj=BeautifulSoup(html.read())

images=bsObj.findAll("img",{"src":re.compile("http://news.baidu.com.*")})

for image in images:

print(image["src"])

except AttributeError as e:

print(e)

import java.io.BufferedReader;

import java.io.IOException;

import java.io.InputStreamReader;

import java.net.HttpURLConnection;

import java.net.MalformedURLException;

import java.net.URL;

public class Capture {

public static void main(String[] args) throws MalformedURLException, IOException {

String strUrl ="http://news.baidu.com/";

URL url =new URL(strUrl);

HttpURLConnection httpConnection = (HttpURLConnection) url.openConnection();

InputStreamReader input = new InputStreamReader(httpConnection.getInputStream(),"utf-8");

BufferedReader bufferedReader = new BufferedReader(input);

String line ="";

StringBuilder stringBuilder = new StringBuilder();

while ((line =bufferedReader.readLine())!=null){

stringBuilder.append(line);

}

String string =stringBuilder.toString();

int begin =string.indexOf("<title>");

int end=string.indexOf("</title>");

System.out.println("IP address:"+string.substring(begin,end));

}

相關文章

  1. python使用requests爬取網頁出現中文亂碼

    在python中,若使用requests庫來抓取網頁,當遇到中文頁面時,容易出現亂碼問題.這是由於字符編碼問題引起的. 在requests中有提供相應的辦法,通過指定encoding,基本可以解決問題 ...
  2. Java 如何爬取網頁

    百度搜尋引擎的原理其中之一就是定期的派出網絡爬蟲到網際網路上去爬取網頁.我這裡用java寫了一個最簡單的小程序來實現這一功能. 工具/原料 Eclipse JDK 1.6 EditPlus 方法/步驟 ...
  3. 分析蜘蛛爬取網頁的優先方式

    1.進步頁面蜘蛛爬取率:大師知道蜘蛛爬取網頁分為廣度優先和深度優先,豈論是那種行動靠的但凡站內連結的公正組織,以是這一條的傳染感動大師理應讀比較懂得,只要進步了蜘蛛爬取頁面率高,威力包管你能更好的泡蜘 ...
  4. 使用八爪魚採集器抓取網頁數據

    php抓取網頁內容比較常用的是藉助第三方類編寫抓取代碼,其中QueryList是一個基於phpQuery的通用列表採集類,是一個簡單. 靈活.強大的採集工具,也比較常用,但是對於一些不用代碼想要抓取網 ...
  5. Excel如何抓取網頁數據之JSON數據抓取

    Excel 2013以後的版本提供了WEBSERVICE和FILTERXML函數可用於網頁數據抓取,但只能抓取XML格式的數據.而現在很多網站的網頁或接口返回的都是HTML或JSON數據,那麼如何精確 ...
  6. 如何爬取網站數據——前嗅ForeSpider使用教程

    前嗅forespider數據採集軟體的使用教程,可視化的軟體,簡單的操作,強大的功能,幫助不會爬蟲的人採集數據. 工具/原料 ForeSpider 方法/步驟 我們想要從網上獲取自己想要的數據,通常有 ...
  7. js如何抓取網頁數據

    js如何抓取網頁數據?下面我們來看看吧. 工具/原料 pc 方法/步驟 首先在根節點document中監聽所有需要抓取的事件. 在元素事件傳遞中,捕獲階段獲取事件信息,進行埋點. 通過getBound ...
  8. 如何用python抓取網頁數據

    可能很多小夥伴們不是很清楚如何用python抓取網頁數據,那麼具體應該怎麼做呢?感興趣的小夥伴們隨小編一起看看吧! 方法/步驟 在抓取網站中有兩個基本的任務: 加載網頁到一個 string 里. 從網 ...
  9. 如何禁止爬取網頁中的連結

    每個網站站長都有自己的網頁內容不希望被搜尋引擎收錄的問題.這時我們可以想到Robots協議(也稱為爬蟲協議.機器人協議等)的全稱是"網絡爬蟲排除標準"(Robots Exclusi ...
  10. 使用簡數採集平台抓取網頁數據

    簡數採集平台特點: --採集不需安裝任何客戶端,在線可視化點選: --集成智能提取引擎(國內獨家),自動識別數據和規則,甚至不需修改即可開始採集; --圖片下載支持存儲到:阿里雲OSS.七牛雲.騰訊雲 ...
  11. 簡數採集平台抓取網頁數據-教程

    本文介紹如何使用簡數採集平台抓取網頁數據,內容偏向基礎部分: 簡數採集平台是一個在線配置和雲採集的網頁數據採集和發布平台,無需安裝客戶端. 工具/原料 瀏覽器 方法/步驟 首先搜尋簡數數據採集平台,進 ...
  12. 如何用python爬取網頁製作電子書

    本文介紹,用Python抓取網頁小說,製作電子書的方法. 本文嘗試著抓取<tdtsg>的第一章. 工具/原料 電腦 Anaconda(Python3.6) 方法/步驟 我下載電子書,一般是 ...
  13. python爬取網頁信息並將爬取的文件寫入excel

    啥也不說,上爬蟲 方法/步驟 環境準備:pip install openpyxl 參考網址:https://blog.csdn.net/dick633/article/details/79933772 ...
  14. vba如何抓取網頁數據

    vba如何抓取網頁數據 工具/原料 vba 方法/步驟 1.實現把單元格內容清空的代碼如下 2.定義網址的代碼如下 3.實現創建對象HTML的方法代碼 4.發送請求和等待請求的方法代碼 5.實現定義數 ...
  15. 零基礎,教您網頁數據抓取

    大數據時代,您還在煩惱數據從何而來?面對大量的網頁數據,您不知道如何處理?或者是為編寫爬蟲代碼而發愁?不管您是屬於哪一類,不管您是有基礎或是零基礎,只要您看完這篇經驗,數據將唾手可得,一切將變得無比簡 ...
  16. 如何通過Java代碼實現對網頁數據進行指定抓取

    如何通過Java代碼實現對網頁數據進行指定抓取   本次經驗中會使用到Jsoup.Jar包 工具/原料 Eclipse Jsoup.jar 方法/步驟 在工程中導入Jsoup.jar包 獲取網址url ...
  17. Java開發中如何實現高效對網頁數據抓取 Jsoup

    Java開發中如何實現高效對網頁數據抓取 Jsoup 工具/原料 Eclipss jsoup.jar 方法/步驟 本次經驗是通過導入外部Jar進行對網頁數據進行抓取,以下是我工程的分布圖. 本例子中是 ...
  18. java中從高德地圖爬取數據

    本人csdn博客地址:http://blog.csdn.net/java_wucao/article/details/77800891,也可查看 工具/原料 idea 高德地圖開發者帳號 maven ...
  19. 如何使用scrapy shell 爬取數據

    如何使用scrapy shell 爬取數據 工具/原料 電腦 cmd命令行 方法/步驟 第一步:我們首先切到命令行窗口,找到我們scrapy項目目錄. 第二步:我們直接在項目目錄中輸入scrapy s ...
  20. 如何利用python爬取數據並保存為word文檔

    如何利用python爬取數據並保存為word文檔?請看下面的經驗吧! 方法/步驟 在做爬取數據之前,你需要下載安裝兩個東西,一個是urllib,另外一個是python-docx. 然後在python的 ...