python使用requests爬取網頁出現中文亂碼

在python中,若使用requests庫來抓取網頁,當遇到中文頁面時,容易出現亂碼問題。這是由於字符編碼問題引起的。

在requests中有提供相應的辦法,通過指定encoding,基本可以解決問題。

工具/原料

Python
requests庫

方法/步驟

演示代碼如下,在爬取中文網頁時,會發現返回結果中的中文為亂碼。

在瀏覽器中,在待爬取網頁上右鍵單擊,選擇「查看頁面原始碼」。可以在HEAD中看到頁面的編碼為『GBK』。

在代碼中添加一行,指定requests對象encoding值為『GBK』。

再次執行,可以發現返回的頁面文本中,中文已正常編碼顯示:

以上代碼在python3中測試。Py3.X源碼文件默認使用utf-8編碼,這與python2不同。Python2還要注意在代碼開始指定代碼的默認編碼。

相關文章

  1. 如何用python爬取網頁製作電子書

    本文介紹,用Python抓取網頁小說,製作電子書的方法. 本文嘗試著抓取<tdtsg>的第一章. 工具/原料 電腦 Anaconda(Python3.6) 方法/步驟 我下載電子書,一般是 ...
  2. python爬取網頁信息並將爬取的文件寫入excel

    啥也不說,上爬蟲 方法/步驟 環境準備:pip install openpyxl 參考網址:https://blog.csdn.net/dick633/article/details/79933772 ...
  3. Java 如何爬取網頁

    百度搜尋引擎的原理其中之一就是定期的派出網絡爬蟲到網際網路上去爬取網頁.我這裡用java寫了一個最簡單的小程序來實現這一功能. 工具/原料 Eclipse JDK 1.6 EditPlus 方法/步驟 ...
  4. python通過cookie爬取個人網站

    通過cookie獲取個人網站信息,並匹配出需要的關鍵字,這裡先以urllib+re模塊登陸網站為例 工具/原料 python的urllib2或request或httplib2包 解析內容需要使用正則表 ...
  5. 如何爬取網頁數據

    Python是進行網頁爬蟲和網頁數據抓取的一個不錯語言.其中python也提供了不少模塊用於數據抓取.urllib是用於打開網頁連結的模塊,urlopen()函數用於打開網頁,bs4(Beautifu ...
  6. 分析蜘蛛爬取網頁的優先方式

    1.進步頁面蜘蛛爬取率:大師知道蜘蛛爬取網頁分為廣度優先和深度優先,豈論是那種行動靠的但凡站內連結的公正組織,以是這一條的傳染感動大師理應讀比較懂得,只要進步了蜘蛛爬取頁面率高,威力包管你能更好的泡蜘 ...
  7. python 爬蟲 入門 爬取新浪新聞

    一提到python,大家經常會提到爬蟲,爬蟲近來興起的原因我覺得主要還是因為大數據的原因,大數據導致了我們的數據不在只存在於自己的伺服器,而python語言的簡便也成了爬蟲工具的首要語言,我們這篇文章 ...
  8. 如何禁止爬取網頁中的連結

    每個網站站長都有自己的網頁內容不希望被搜尋引擎收錄的問題.這時我們可以想到Robots協議(也稱為爬蟲協議.機器人協議等)的全稱是"網絡爬蟲排除標準"(Robots Exclusi ...
  9. Python爬取gb2312編碼的網頁,並存儲中文字符

    使用python爬取gb2312編碼的網頁的時候,經常會出現亂碼問題,將網頁中獲取的信息存入json文件中的時候,json文件默認會保存中文的Unicode編碼,如果不進行轉碼,那麼存入json文件中 ...
  10. python爬取有道翻譯結果,實現即時翻譯功能

    python利用有道翻譯實現中英文互譯 工具/原料 python2.7 方法/步驟 使用chrome瀏覽器,打開有道翻譯頁面,輸入需要翻譯的內容,按f12鍵 點擊翻譯按鈕後,Network會列出所有的 ...
  11. 如何用python抓取網頁數據

    可能很多小夥伴們不是很清楚如何用python抓取網頁數據,那麼具體應該怎麼做呢?感興趣的小夥伴們隨小編一起看看吧! 方法/步驟 在抓取網站中有兩個基本的任務: 加載網頁到一個 string 里. 從網 ...
  12. 如何利用python爬取數據並保存為word文檔

    如何利用python爬取數據並保存為word文檔?請看下面的經驗吧! 方法/步驟 在做爬取數據之前,你需要下載安裝兩個東西,一個是urllib,另外一個是python-docx. 然後在python的 ...
  13. 零基礎使用python配合兔子IP爬取煎蛋網妹子圖

    零基礎使用python搭配兔子IP爬取煎蛋網妹子圖. 工具/原料 python3 兔子IP接口api 方法/步驟 下載python並安裝,配置好路徑. 打開命令行工具,win+r cmd 然後輸入py ...
  14. 程序猿的Python爬取數據防封IP方法!

    爬蟲:一段自動抓取網際網路信息的程序,從網際網路上抓取對於我們有價值的信息,一般來說,Python爬蟲程序很多時候都要使用(飛豬IP)代理的IP位址來爬取程序,但是默認的urlopen是無法使用代理的IP ...
  15. 如何爬取動態網頁

    本文以ASP.NET平台的工具為例,為您介紹如何爬取動態網頁內容,主要使用RestSharp + NSoup兩個dll組件 方法/步驟 通過NuGet或者其他方式,將RestSharp 和 NSoup ...
  16. 如何使用python爬取電影資源(經典實戰版)

    很多小夥伴都對pytho爬蟲充滿神秘感,今天和大家分享下如何使用python來爬電影資源,前方多圖高能,請注意安全! 工具/原料 電腦 方法/步驟 首先說一下我們的終極目標: 從網頁中提取出top10 ...
  17. ASP亂碼 ASP中文亂碼 ASP網頁亂碼

    初學者往往會在學習過程中遇到網頁亂碼的問題,相信看完這篇文章會有很大幫助. 方法/步驟 網頁出現亂碼主要是因為幾個地方聲明的網頁編碼不一致引起的. . 涉及網頁編碼有幾個地方: 1.頁面開頭的 COD ...
  18. PHP抓取網頁failed to open stream解決方案

    本教程完美解決PHP抓取網頁failed to open stream: HTTP request failed!遇到的問題. 工具/原料 PHP一系列軟體 電腦一台 方法/步驟 如圖所示:抓取失敗了 ...
  19. 搜尋引擎抓取網頁原理學習筆記

    做正規seo技術必會的搜尋引擎抓取網頁原理應該是很複雜的.可以寫洋洋灑灑的長篇論文.這裡就將我自己學習到的網頁抓取原理記錄一下.筆記應該不夠完整隻將重要過程做個介紹 步驟/方法 做正規seo技術必會的 ...
  20. 怎麼用Java程序抓取網頁原始碼?

    怎麼用java程序抓取網頁原始碼?如果抓取代碼都用程序來做的話,相信要快很多.程序如下:       import java.io.BufferedReader;import java.io.IOEx ...