如何使用scrapy shell 爬取數據

如何使用scrapy shell 爬取數據

工具/原料

電腦
cmd命令行

方法/步驟

第一步:我們首先切到命令行窗口,找到我們scrapy項目目錄。

第二步:我們直接在項目目錄中輸入scrapy shell 加上訪問地址。

第三步:我們可以看到,我們訪問的網址成功了,並且給我們提示命令內容。

第四步:我們使用xpath將需要的內容進行提取。

第五步:我們可以看到,爬蟲已經成功將標題返回了。快來實踐一下吧。

注意事項

可以結合xpath提取需要的內容!
喜歡的朋友歡迎投票和收藏啊,謝謝!

相關文章

  1. java中從高德地圖爬取數據

    本人csdn博客地址:http://blog.csdn.net/java_wucao/article/details/77800891,也可查看 工具/原料 idea 高德地圖開發者帳號 maven ...
  2. 如何利用python爬取數據並保存為word文檔

    如何利用python爬取數據並保存為word文檔?請看下面的經驗吧! 方法/步驟 在做爬取數據之前,你需要下載安裝兩個東西,一個是urllib,另外一個是python-docx. 然後在python的 ...
  3. 如何爬取網頁數據

    Python是進行網頁爬蟲和網頁數據抓取的一個不錯語言.其中python也提供了不少模塊用於數據抓取.urllib是用於打開網頁連結的模塊,urlopen()函數用於打開網頁,bs4(Beautifu ...
  4. 如何爬取網站數據——前嗅ForeSpider使用教程

    前嗅forespider數據採集軟體的使用教程,可視化的軟體,簡單的操作,強大的功能,幫助不會爬蟲的人採集數據. 工具/原料 ForeSpider 方法/步驟 我們想要從網上獲取自己想要的數據,通常有 ...
  5. 使用Scrapy+Selenium+PhantomJS爬取煎蛋妹子圖

    本文介紹在Ubuntu linux系統下,使用Python3+Scrapy+Selenium+PhantomJS爬取煎蛋妹子圖的完整過程,其中包含幾個踩過的坑,先給大家貼上爬取的結果截圖,效果還是可以 ...
  6. python使用requests爬取網頁出現中文亂碼

    在python中,若使用requests庫來抓取網頁,當遇到中文頁面時,容易出現亂碼問題.這是由於字符編碼問題引起的. 在requests中有提供相應的辦法,通過指定encoding,基本可以解決問題 ...
  7. Shell實例分享二-Shell腳本取系統日期

        Shell腳本取系統日期? 當我們在寫一個腳本時,並要記錄這個SHELL腳本執行的時刻時,我們通常會重定向到一個以系統時間命名的文件下,這樣便可以記下這個SHELL腳本執行的時刻;是不是很酷; ...
  8. shell操作MYSQL數據實現添加刪除自動化

    shell操作MYSQL數據實現添加刪除自動化,之前有分享一篇shell操作mysql數據實現添加PPTP+RADIUS+MYSQL的radcheck用戶的經驗,今天特意寫一篇shell操作MYSQL ...
  9. Java 如何爬取網頁

    百度搜尋引擎的原理其中之一就是定期的派出網絡爬蟲到網際網路上去爬取網頁.我這裡用java寫了一個最簡單的小程序來實現這一功能. 工具/原料 Eclipse JDK 1.6 EditPlus 方法/步驟 ...
  10. 如何解決百度蜘蛛只爬取首頁的問題

    我們看網站日誌的時候不能只是看搜尋引擎的日誌爬取的頻率和返回的http碼!要想了解搜尋引擎,就必須從它的動態看起,就是要看它一系列都抓取了什麼,最長見的問題就是百度蜘蛛只爬取首頁的問題,很多站長沒有察 ...
  11. 在thinkphp用ajax取數據

    這篇文章就是介紹如何通過ajax在thinkphp框架中取資料庫中的數據,實現局部的刷新功能 工具/原料 thinkphp3.2 msql資料庫(info_gbvalue數據表) 方法/步驟 首先要創 ...
  12. 怎樣使用wireshark來抓取數據包

    wireshark作為世界上最流行的網絡協議分析器,其分析數據包的能力無與倫比.並且,以其操作較為簡便,功能多樣化,受到了業界很多人的青睞.接下來,介紹一下如何使用wireshark進行簡單的抓包. ...
  13. python通過cookie爬取個人網站

    通過cookie獲取個人網站信息,並匹配出需要的關鍵字,這裡先以urllib+re模塊登陸網站為例 工具/原料 python的urllib2或request或httplib2包 解析內容需要使用正則表 ...
  14. 簡單分析搜尋引擎蜘蛛的爬取策略

    搜尋引擎蜘蛛每天是怎麼樣去爬取我們的網的呢?針對這些你有多少的了解?那搜尋引擎蜘蛛的爬取過程又是怎麼樣的呢?在搜尋引擎蜘蛛系統中,待爬取URL隊列是很關鍵的部分,需要蜘蛛爬取的網頁URL在其中順序排列 ...
  15. 手機如何抓取數據包和fiddler使用方法

    很多人想了解手機聯網的時候,到底有哪些訪問的請求,所以我們要抓取手機的數據包來判定.下面教大家用fiddler來抓包 工具/原料 手機 Fiddler軟體 方法/步驟 第一步:去百度搜尋Fiddler ...
  16. 百度蜘蛛爬取的規律是什麼

    百度蜘蛛是如何爬取的 第一,百度蜘蛛極為活躍,經常看看你的伺服器日誌,你就懷發現百度蜘蛛抓取的頻率和數量都非常大.百度蜘蛛幾乎每天都會訪問我的論壇,並且至少抓取幾十個網頁.我的論壇只開通了不到一個月, ...
  17. 分析蜘蛛爬取網頁的優先方式

    1.進步頁面蜘蛛爬取率:大師知道蜘蛛爬取網頁分為廣度優先和深度優先,豈論是那種行動靠的但凡站內連結的公正組織,以是這一條的傳染感動大師理應讀比較懂得,只要進步了蜘蛛爬取頁面率高,威力包管你能更好的泡蜘 ...
  18. 使用scrapy shell監測頁面Xpath規則

    python進行數據採集有scrpay框架,這個框架可以幫助使用者快速採集數據,但是在採集數據的過程中,我們需要知道採集的數據有哪些,具體規則是什麼. 工具/原料 電腦一台 python環境 使用li ...
  19. python 爬蟲 入門 爬取新浪新聞

    一提到python,大家經常會提到爬蟲,爬蟲近來興起的原因我覺得主要還是因為大數據的原因,大數據導致了我們的數據不在只存在於自己的伺服器,而python語言的簡便也成了爬蟲工具的首要語言,我們這篇文章 ...
  20. 如何用記事本爬取公眾號歷史文章?

    不知道有沒有人,和我有一樣的習慣,微信公眾號里的文章,不會深入的閱讀.遇到好的文章,就收藏起來,然後在電腦上閱讀.特別是需要動手的Excel.PPT等教程. 如果遇到好的公眾號,恨不得把它的每篇文章, ...