使用selenium爬取二手房源信息

房價總是一路高啊,高得仰起頭看都要扭到脖子了,但是呢,做人還是要有目標的,提前了解市場,研究一下自己喜歡地區的放假還是有作用的,萬一有撿漏呢~今天利用selenium爬取58上的二手房信息。

工具/原料

python
selenium+firefox

方法/步驟

試了用requests來爬取58,效果不是很好,因為每一個連結地址點擊之後,都會生成很多參數,如果不加的話,很快就會跳驗證碼,所以使用了selenium進行模擬點擊,不去管這些參數怎麼生成了,實測採集整個城市的信息都很流暢。

話不多說,先記錄下代碼:

因為,58網點擊一個連結之後,就會打開一個頁面標籤,為了避免打開的窗口過多,導致電腦卡頓,使用了driver.window.handles 窗口句柄來控制標籤頁進行操作,

切換到指定的窗口命令為:driver.switch_to_window(句柄值)

獲取當前窗口句柄命令為:driver.current_window_handle

獲取所有窗口句柄命令為:driver.window.handles

當程序點擊主窗口裡的列表連結後,馬上切換到點擊之後的窗口,進行相關的源碼解析,獲取數據,寫入csv文件,之後即時關閉此窗口,回到主窗口,點擊下一個連結,依次循環。

雙手離開鍵盤,滑鼠,看著瀏覽器自動的打開,關閉頁面,還是很有意思的~~

程序運行完畢後,打開表格文件,數據一覽無遺,

注意事項

需要對python語言有入門了解
請遵守網頁爬取道德,數據僅供個人研究應用

相關文章

  1. 使用Scrapy+Selenium+PhantomJS爬取煎蛋妹子圖

    本文介紹在Ubuntu linux系統下,使用Python3+Scrapy+Selenium+PhantomJS爬取煎蛋妹子圖的完整過程,其中包含幾個踩過的坑,先給大家貼上爬取的結果截圖,效果還是可以 ...
  2. 爬蟲項目 智聯-職位信息爬取

    根據關鍵詞,爬取智聯職位相關信息 工具/原料 Python3 pycharm 方法/步驟 import timeimport jsonimport urllib.requestimport urlli ...
  3. python使用requests爬取網頁出現中文亂碼

    在python中,若使用requests庫來抓取網頁,當遇到中文頁面時,容易出現亂碼問題.這是由於字符編碼問題引起的. 在requests中有提供相應的辦法,通過指定encoding,基本可以解決問題 ...
  4. Java 如何爬取網頁

    百度搜尋引擎的原理其中之一就是定期的派出網絡爬蟲到網際網路上去爬取網頁.我這裡用java寫了一個最簡單的小程序來實現這一功能. 工具/原料 Eclipse JDK 1.6 EditPlus 方法/步驟 ...
  5. 如何解決百度蜘蛛只爬取首頁的問題

    我們看網站日誌的時候不能只是看搜尋引擎的日誌爬取的頻率和返回的http碼!要想了解搜尋引擎,就必須從它的動態看起,就是要看它一系列都抓取了什麼,最長見的問題就是百度蜘蛛只爬取首頁的問題,很多站長沒有察 ...
  6. python通過cookie爬取個人網站

    通過cookie獲取個人網站信息,並匹配出需要的關鍵字,這裡先以urllib+re模塊登陸網站為例 工具/原料 python的urllib2或request或httplib2包 解析內容需要使用正則表 ...
  7. 簡單分析搜尋引擎蜘蛛的爬取策略

    搜尋引擎蜘蛛每天是怎麼樣去爬取我們的網的呢?針對這些你有多少的了解?那搜尋引擎蜘蛛的爬取過程又是怎麼樣的呢?在搜尋引擎蜘蛛系統中,待爬取URL隊列是很關鍵的部分,需要蜘蛛爬取的網頁URL在其中順序排列 ...
  8. 如何爬取網頁數據

    Python是進行網頁爬蟲和網頁數據抓取的一個不錯語言.其中python也提供了不少模塊用於數據抓取.urllib是用於打開網頁連結的模塊,urlopen()函數用於打開網頁,bs4(Beautifu ...
  9. 百度蜘蛛爬取的規律是什麼

    百度蜘蛛是如何爬取的 第一,百度蜘蛛極為活躍,經常看看你的伺服器日誌,你就懷發現百度蜘蛛抓取的頻率和數量都非常大.百度蜘蛛幾乎每天都會訪問我的論壇,並且至少抓取幾十個網頁.我的論壇只開通了不到一個月, ...
  10. 分析蜘蛛爬取網頁的優先方式

    1.進步頁面蜘蛛爬取率:大師知道蜘蛛爬取網頁分為廣度優先和深度優先,豈論是那種行動靠的但凡站內連結的公正組織,以是這一條的傳染感動大師理應讀比較懂得,只要進步了蜘蛛爬取頁面率高,威力包管你能更好的泡蜘 ...
  11. python 爬蟲 入門 爬取新浪新聞

    一提到python,大家經常會提到爬蟲,爬蟲近來興起的原因我覺得主要還是因為大數據的原因,大數據導致了我們的數據不在只存在於自己的伺服器,而python語言的簡便也成了爬蟲工具的首要語言,我們這篇文章 ...
  12. java中從高德地圖爬取數據

    本人csdn博客地址:http://blog.csdn.net/java_wucao/article/details/77800891,也可查看 工具/原料 idea 高德地圖開發者帳號 maven ...
  13. 如何用記事本爬取公眾號歷史文章?

    不知道有沒有人,和我有一樣的習慣,微信公眾號里的文章,不會深入的閱讀.遇到好的文章,就收藏起來,然後在電腦上閱讀.特別是需要動手的Excel.PPT等教程. 如果遇到好的公眾號,恨不得把它的每篇文章, ...
  14. java爬蟲框架webmagic的搭建與示例,爬取csdn

    最近在搗鼓python,被python的神話傳說洗腦了,用了一陣才發現也沒有真的那麼牛逼,關鍵還是看用熟悉哪個,而且python相對java的簡略,其實也是有利有弊,自由度高了,項目一大,可讀性就降低 ...
  15. 如何爬取網站數據——前嗅ForeSpider使用教程

    前嗅forespider數據採集軟體的使用教程,可視化的軟體,簡單的操作,強大的功能,幫助不會爬蟲的人採集數據. 工具/原料 ForeSpider 方法/步驟 我們想要從網上獲取自己想要的數據,通常有 ...
  16. 如何使用scrapy shell 爬取數據

    如何使用scrapy shell 爬取數據 工具/原料 電腦 cmd命令行 方法/步驟 第一步:我們首先切到命令行窗口,找到我們scrapy項目目錄. 第二步:我們直接在項目目錄中輸入scrapy s ...
  17. python爬取有道翻譯結果,實現即時翻譯功能

    python利用有道翻譯實現中英文互譯 工具/原料 python2.7 方法/步驟 使用chrome瀏覽器,打開有道翻譯頁面,輸入需要翻譯的內容,按f12鍵 點擊翻譯按鈕後,Network會列出所有的 ...
  18. 如何利用python爬取數據並保存為word文檔

    如何利用python爬取數據並保存為word文檔?請看下面的經驗吧! 方法/步驟 在做爬取數據之前,你需要下載安裝兩個東西,一個是urllib,另外一個是python-docx. 然後在python的 ...
  19. 爬蟲是什麼?淺談爬蟲及繞過網站反爬取機制

    爬蟲是什麼呢,簡單而片面的說,爬蟲就是由計算機自動與伺服器交互獲取數據的工具.爬蟲的最基本就是get一個網頁的原始碼數據,如果更深入一些,就會出現和網頁進行POST交互,獲取伺服器接收POST請求後返 ...
  20. 解決王者榮耀榮耀戰區地標信息拉取失敗的方法

    大家是不是看到某某縣某某區的第幾的的關羽,或者是其他英雄的稱號,是不是很羨慕,但是自己進榮耀戰區,結果發現位置信息拉取失敗,是不是感覺到非常的頭疼,下面我來介紹一下解決方法 工具/原料 王者榮耀app ...