python 爬蟲 入門 爬取新浪新聞

一提到python,大家經常會提到爬蟲,爬蟲近來興起的原因我覺得主要還是因為大數據的原因,大數據導致了我們的數據不在只存在於自己的伺服器,而python語言的簡便也成了爬蟲工具的首要語言,我們這篇文章來講下爬蟲,爬取新浪新聞

方法/步驟

大家知道,爬蟲實際上就是模擬瀏覽器請求,然後把請求到的數據,經過我們的分析,提取出我們想要的內容,這也就是爬蟲的實現

首先,我們要寫爬蟲,可以借鑑一些工具,我們先從簡單的入門,首先說到請求,我們就會想到python中,非常好用的requests,然後說到分析解析就會用到bs4,然後我們可以直接用pip命令來實現安裝,假如安裝的是python3,也可以用pip3

安裝好這兩個類庫之後,然後我們就可以先請求數據,查看下新聞的內容,這個時候我們有可能看到的是亂碼

怎麼處理亂碼呢?我們可以拿瀏覽器打開網頁,右鍵查看網頁原始碼,我們可以看到編碼格式為utf-8

然後我們在輸出的時候添加編碼格式,就可以查看到正確編碼的數據了

拿到數據之後,我們需要先分析數據,看我們想要的數據在哪裡,我們打開瀏覽器,右鍵審查,然後按示例圖操作,就可以看到我們新聞所在的標籤,假如是windows系統,選擇開發中工具裡面一樣

我們知道屬於哪個標籤之後,就是用bs4來解析拿到我們想要的數據了

我們想要拿到新聞的具體標題,時間,地址,就需要我們在對元素進行深入的解析,我們還是按之前的方法,找到標題所在的標籤

然後我們編寫標題時間地址的python程序,就可以爬取出對應的標題內容,時間和地址

簡單的python爬取新聞就講到這裡啦

注意事項

以上知識,若有出入,謝謝您留言幫忙,避免誤導其他讀者

本文內容整理自網絡, 文中所有觀點看法不代表淘大白的立場