Java 如何爬取網頁

百度搜尋引擎的原理其中之一就是定期的派出網絡爬蟲到網際網路上去爬取網頁.我這裡用java寫了一個最簡單的小程序來實現這一功能.

工具/原料

Eclipse
JDK 1.6
EditPlus

方法/步驟

我希望輸入一個有效的網址後返回這一網址下的網頁源碼,則有代碼如圖:

通過網址連接到指定的網址

在運行之前把開發空間的的編碼改為UTF-8,否則編譯執行返回的網頁中的中文會變成亂碼

連接成功後通過連接對象得到輸入流,讀出輸入流就可以得到網頁代碼

運行後得到的網頁代碼如下

把返回的代碼複製到EditPlus中運行一下看看

注意事項

運行的結果百度的logo之所以沒有是因為沒有路徑中沒有http:,只有在伺服器上才可以看

相關文章

  1. python使用requests爬取網頁出現中文亂碼

    在python中,若使用requests庫來抓取網頁,當遇到中文頁面時,容易出現亂碼問題.這是由於字符編碼問題引起的. 在requests中有提供相應的辦法,通過指定encoding,基本可以解決問題 ...
  2. 怎麼用Java程序抓取網頁原始碼?

    怎麼用java程序抓取網頁原始碼?如果抓取代碼都用程序來做的話,相信要快很多.程序如下:       import java.io.BufferedReader;import java.io.IOEx ...
  3. 如何爬取網頁數據

    Python是進行網頁爬蟲和網頁數據抓取的一個不錯語言.其中python也提供了不少模塊用於數據抓取.urllib是用於打開網頁連結的模塊,urlopen()函數用於打開網頁,bs4(Beautifu ...
  4. 分析蜘蛛爬取網頁的優先方式

    1.進步頁面蜘蛛爬取率:大師知道蜘蛛爬取網頁分為廣度優先和深度優先,豈論是那種行動靠的但凡站內連結的公正組織,以是這一條的傳染感動大師理應讀比較懂得,只要進步了蜘蛛爬取頁面率高,威力包管你能更好的泡蜘 ...
  5. 如何禁止爬取網頁中的連結

    每個網站站長都有自己的網頁內容不希望被搜尋引擎收錄的問題.這時我們可以想到Robots協議(也稱為爬蟲協議.機器人協議等)的全稱是"網絡爬蟲排除標準"(Robots Exclusi ...
  6. 如何用python爬取網頁製作電子書

    本文介紹,用Python抓取網頁小說,製作電子書的方法. 本文嘗試著抓取<tdtsg>的第一章. 工具/原料 電腦 Anaconda(Python3.6) 方法/步驟 我下載電子書,一般是 ...
  7. python爬取網頁信息並將爬取的文件寫入excel

    啥也不說,上爬蟲 方法/步驟 環境準備:pip install openpyxl 參考網址:https://blog.csdn.net/dick633/article/details/79933772 ...
  8. 如何java寫/實現網絡爬蟲抓取網頁

    很多時候我們需要一些數據或者信息,而這些信息可能是收費的,不公開的,也可能是信息量比較大,如果單純靠我們手工來做的話可能比較浪費時間,所以我們需要寫一個網絡爬蟲,高效地將自己需要的信息抓取下來,在這裡 ...
  9. 如何通過Java代碼實現對網頁數據進行指定抓取

    如何通過Java代碼實現對網頁數據進行指定抓取   本次經驗中會使用到Jsoup.Jar包 工具/原料 Eclipse Jsoup.jar 方法/步驟 在工程中導入Jsoup.jar包 獲取網址url ...
  10. java中從高德地圖爬取數據

    本人csdn博客地址:http://blog.csdn.net/java_wucao/article/details/77800891,也可查看 工具/原料 idea 高德地圖開發者帳號 maven ...
  11. java爬蟲框架webmagic的搭建與示例,爬取csdn

    最近在搗鼓python,被python的神話傳說洗腦了,用了一陣才發現也沒有真的那麼牛逼,關鍵還是看用熟悉哪個,而且python相對java的簡略,其實也是有利有弊,自由度高了,項目一大,可讀性就降低 ...
  12. Python爬取gb2312編碼的網頁,並存儲中文字符

    使用python爬取gb2312編碼的網頁的時候,經常會出現亂碼問題,將網頁中獲取的信息存入json文件中的時候,json文件默認會保存中文的Unicode編碼,如果不進行轉碼,那麼存入json文件中 ...
  13. 如何爬取動態網頁

    本文以ASP.NET平台的工具為例,為您介紹如何爬取動態網頁內容,主要使用RestSharp + NSoup兩個dll組件 方法/步驟 通過NuGet或者其他方式,將RestSharp 和 NSoup ...
  14. PHP抓取網頁failed to open stream解決方案

    本教程完美解決PHP抓取網頁failed to open stream: HTTP request failed!遇到的問題. 工具/原料 PHP一系列軟體 電腦一台 方法/步驟 如圖所示:抓取失敗了 ...
  15. 搜尋引擎抓取網頁原理學習筆記

    做正規seo技術必會的搜尋引擎抓取網頁原理應該是很複雜的.可以寫洋洋灑灑的長篇論文.這裡就將我自己學習到的網頁抓取原理記錄一下.筆記應該不夠完整隻將重要過程做個介紹 步驟/方法 做正規seo技術必會的 ...
  16. 一次抓取網頁中所有圖片

    一次抓取網頁中所有圖片 我們上網找素材的時候,經常會遇到一些網頁裡面用了很多自己能夠用到的圖片,但是每一個都要單擊右鍵,然後圖片另存為,很是麻煩.其實藉助SnagIt抓圖軟體可以一次抓取網頁內所有圖片 ...
  17. 如何解決百度蜘蛛只爬取首頁的問題

    我們看網站日誌的時候不能只是看搜尋引擎的日誌爬取的頻率和返回的http碼!要想了解搜尋引擎,就必須從它的動態看起,就是要看它一系列都抓取了什麼,最長見的問題就是百度蜘蛛只爬取首頁的問題,很多站長沒有察 ...
  18. 小樂圖客攻略:[16]如何抓取網頁CSS背景圖

    我們知道在網頁取圖時,經常遇到一些使用小樂圖客取不到的圖.這時就需要考慮這些圖片是否屬於CSS背景圖,實際圖片地址是否隱藏在CSS文件中.本文分享給大家如何批量從網站CSS文件中抓取背景圖的方法. 工 ...
  19. 搜尋引擎抓取網頁的方法

    愈來愈多的站長加入到了seo的行列之中,新站長需要知道很多的基礎知識,才能開始優化之旅,有很多半罐子的理論有時會誤導你,網站優化給新手站長推薦Google給網站管理員的網站站長指南.這是一本簡潔的精確 ...
  20. 抓取網頁指定內容(資料),獲取網頁里的圖片

    最近有遇到同學反饋,網頁里的那些沒有特徵值的文本元素不知道怎麼獲取.以及,不知道怎麼獲取保存網頁里出現的圖片. 工具/原料 按鍵精靈2014 方法/步驟 獲取網頁指定文字: 目前按鍵支持的元素特徵值有 ...