python使用requests爬取網頁出現中文亂碼

在python中,若使用requests庫來抓取網頁,當遇到中文頁面時,容易出現亂碼問題。這是由於字符編碼問題引起的。

在requests中有提供相應的辦法,通過指定encoding,基本可以解決問題。

工具/原料

Python
requests庫

方法/步驟

演示代碼如下,在爬取中文網頁時,會發現返回結果中的中文為亂碼。

在瀏覽器中,在待爬取網頁上右鍵單擊,選擇「查看頁面原始碼」。可以在HEAD中看到頁面的編碼為『GBK』。

在代碼中添加一行,指定requests對象encoding值為『GBK』。

再次執行,可以發現返回的頁面文本中,中文已正常編碼顯示:

以上代碼在python3中測試。Py3.X源碼文件默認使用utf-8編碼,這與python2不同。Python2還要注意在代碼開始指定代碼的默認編碼。

相關文章

  1. Java 如何爬取網頁

    百度搜尋引擎的原理其中之一就是定期的派出網絡爬蟲到網際網路上去爬取網頁.我這裡用java寫了一個最簡單的小程序來實現這一功能. 工具/原料 Eclipse JDK 1.6 EditPlus 方法/步驟 ...
  2. python通過cookie爬取個人網站

    通過cookie獲取個人網站信息,並匹配出需要的關鍵字,這裡先以urllib+re模塊登陸網站為例 工具/原料 python的urllib2或request或httplib2包 解析內容需要使用正則表 ...
  3. 如何爬取網頁數據

    Python是進行網頁爬蟲和網頁數據抓取的一個不錯語言.其中python也提供了不少模塊用於數據抓取.urllib是用於打開網頁連結的模塊,urlopen()函數用於打開網頁,bs4(Beautifu ...
  4. 分析蜘蛛爬取網頁的優先方式

    1.進步頁面蜘蛛爬取率:大師知道蜘蛛爬取網頁分為廣度優先和深度優先,豈論是那種行動靠的但凡站內連結的公正組織,以是這一條的傳染感動大師理應讀比較懂得,只要進步了蜘蛛爬取頁面率高,威力包管你能更好的泡蜘 ...
  5. python 爬蟲 入門 爬取新浪新聞

    一提到python,大家經常會提到爬蟲,爬蟲近來興起的原因我覺得主要還是因為大數據的原因,大數據導致了我們的數據不在只存在於自己的伺服器,而python語言的簡便也成了爬蟲工具的首要語言,我們這篇文章 ...
  6. python爬取有道翻譯結果,實現即時翻譯功能

    python利用有道翻譯實現中英文互譯 工具/原料 python2.7 方法/步驟 使用chrome瀏覽器,打開有道翻譯頁面,輸入需要翻譯的內容,按f12鍵 點擊翻譯按鈕後,Network會列出所有的 ...
  7. 如何用python抓取網頁數據

    可能很多小夥伴們不是很清楚如何用python抓取網頁數據,那麼具體應該怎麼做呢?感興趣的小夥伴們隨小編一起看看吧! 方法/步驟 在抓取網站中有兩個基本的任務: 加載網頁到一個 string 里. 從網 ...
  8. 如何利用python爬取數據並保存為word文檔

    如何利用python爬取數據並保存為word文檔?請看下面的經驗吧! 方法/步驟 在做爬取數據之前,你需要下載安裝兩個東西,一個是urllib,另外一個是python-docx. 然後在python的 ...
  9. ASP亂碼 ASP中文亂碼 ASP網頁亂碼

    初學者往往會在學習過程中遇到網頁亂碼的問題,相信看完這篇文章會有很大幫助. 方法/步驟 網頁出現亂碼主要是因為幾個地方聲明的網頁編碼不一致引起的. . 涉及網頁編碼有幾個地方: 1.頁面開頭的 COD ...
  10. PHP抓取網頁failed to open stream解決方案

    本教程完美解決PHP抓取網頁failed to open stream: HTTP request failed!遇到的問題. 工具/原料 PHP一系列軟體 電腦一台 方法/步驟 如圖所示:抓取失敗了 ...
  11. 搜尋引擎抓取網頁原理學習筆記

    做正規seo技術必會的搜尋引擎抓取網頁原理應該是很複雜的.可以寫洋洋灑灑的長篇論文.這裡就將我自己學習到的網頁抓取原理記錄一下.筆記應該不夠完整隻將重要過程做個介紹 步驟/方法 做正規seo技術必會的 ...
  12. 怎麼用Java程序抓取網頁原始碼?

    怎麼用java程序抓取網頁原始碼?如果抓取代碼都用程序來做的話,相信要快很多.程序如下:       import java.io.BufferedReader;import java.io.IOEx ...
  13. 怎麼設置英文網頁變成中文?

    如果你上國外購物或者看外國上的訊資新聞消息網頁等,但自己又不懂英文,又想要知道它的意思那怎麼辦呢,難道拿字典一個一個的單詞去查?太浪費時間了,我有個好辦法讓你瞬間從英文邊中文,打破瀏覽國外新聞網頁是神 ...
  14. 一次抓取網頁中所有圖片

    一次抓取網頁中所有圖片 我們上網找素材的時候,經常會遇到一些網頁裡面用了很多自己能夠用到的圖片,但是每一個都要單擊右鍵,然後圖片另存為,很是麻煩.其實藉助SnagIt抓圖軟體可以一次抓取網頁內所有圖片 ...
  15. VScode Python Console App中文亂碼

    大家知道,VScode 提供了Python斷點調試功能(業界良心). 工具/原料 VScode 1.3.0 python 2.7.11 方法/步驟 進入調試界面. 默認使用VScode自帶調試控制台作 ...
  16. python查詢mariadb中文亂碼解決

    python引入MySQLdb查詢mariadb資料庫記錄返回中文亂碼 工具/原料 python工具PyCharm mariadb 方法/步驟 # -*-coding:utf-8 -*- import ...
  17. 如何java寫/實現網絡爬蟲抓取網頁

    很多時候我們需要一些數據或者信息,而這些信息可能是收費的,不公開的,也可能是信息量比較大,如果單純靠我們手工來做的話可能比較浪費時間,所以我們需要寫一個網絡爬蟲,高效地將自己需要的信息抓取下來,在這裡 ...
  18. 如何解決百度蜘蛛只爬取首頁的問題

    我們看網站日誌的時候不能只是看搜尋引擎的日誌爬取的頻率和返回的http碼!要想了解搜尋引擎,就必須從它的動態看起,就是要看它一系列都抓取了什麼,最長見的問題就是百度蜘蛛只爬取首頁的問題,很多站長沒有察 ...
  19. 小樂圖客攻略:[16]如何抓取網頁CSS背景圖

    我們知道在網頁取圖時,經常遇到一些使用小樂圖客取不到的圖.這時就需要考慮這些圖片是否屬於CSS背景圖,實際圖片地址是否隱藏在CSS文件中.本文分享給大家如何批量從網站CSS文件中抓取背景圖的方法. 工 ...
  20. 搜尋引擎抓取網頁的方法

    愈來愈多的站長加入到了seo的行列之中,新站長需要知道很多的基礎知識,才能開始優化之旅,有很多半罐子的理論有時會誤導你,網站優化給新手站長推薦Google給網站管理員的網站站長指南.這是一本簡潔的精確 ...