python3爬蟲教程
① python3爬蟲教程-Scapy詳解
安裝Scapy
可以通過命令行或在PyCharm中進行安裝。在命令行中輸入`pip install scapy`完成安裝;在PyCharm中,選擇`File->Setting->Python Interpreter`,然後在彈出的窗口中輸入`pip install scapy`並執行。
創建爬蟲工程
創建工程後,根目錄下將自動生成`helloworld`文件夾。進入該文件夾。
編寫Item類
Item用於存儲爬取的數據,如爬取電影資源時,需要包含電影名稱、年代、評分等信息。
設計Pipeline
Pipeline用於清理HTML數據,將所需信息存儲至資料庫、文件等介質,爬蟲執行完畢後自動調用`process_item`方法。
配置Pipeline
可重寫四個方法,實現特定功能。可根據需求定義多個Pipeline,並在`setting.py`中配置,權重越小的Pipeline優先順序越高。
設置`setting.py`參數
解釋幾個重要參數,如是否啟用本地緩存,是否啟用隨機User-Agent,配置User-Agent等。
下載器中間件
使用下載器中間件時需在`settings.py`中設置`DOWNLOADER_MIDDLEWARES`字典,並設置數字優先順序,數字越小的中間件優先順序越高。
自定義中間件
自定義中間件需實現`process_request`、`process_response`和`process_exception`三個重要函數。
創建爬蟲
使用命令`cd`進入項目目錄,然後使用`scrapy`命令創建爬蟲文件。`spiders`目錄將生成新的爬蟲文件。
配置爬蟲類`scrapy.Spider`
必須定義爬蟲名稱、允許爬取的域名列表以及開始爬取的URL列表。自定義回調函數以處理返回的數據,還需設置日誌處理和資源釋放函數。
爬蟲相關命令
爬蟲教程至此結束,後續將詳細講解實例操作。敬請期待!
② IDLE+Shell+3.9.7怎樣爬蟲
這是一個適用於小白的Python爬蟲免費教學分享,只有7節,讓零基礎的你初步了解爬蟲,跟著課程內容能自己爬取資源。看著文章,打開電腦動手實踐,平均45分鍾就能學完一節,如果你願意,今天內你就可以邁入爬蟲的大門啦~
話不多說,正式開始我們的第一節課《Python環境的安裝》吧~
啦啦啦開課啦,看黑板,都看黑板~
1. 安裝Anaconda
在我們的教學中,我們使用的版本是Python3,至於為什麼要選Python3,哼哼!
工欲善其事,必先利其器,在學習爬蟲之前,你得先搭建自己的編程環境。廢話不多說,按照下面的方法搭建吧:
1.1 下載Anaconda
打開Anaconda網頁後,看到這樣的頁面:
根據你的電腦系統,選擇相應版本的 Anaconda(記住選擇 Python 3.6 的版本),Mac OS 用戶選擇 Mac 版本即可,如果不想麻煩,請選擇 Graphical Installer。
1.2 安裝 Anaconda
選擇默認位置安裝即可:
兩個選擇框都勾上,安裝:
1.3 在開始菜單中查看 Anaconda
Anaconda 裝好之後,可以在開始菜單查看。可以看到包含了如下圖所示的組件:
之後我們會用到的主要是:
Anaconda Prompt:Anaconda 自帶的命令行
Jupyter Notebook:一個簡單易用、適合入門的 IDE
2. 安裝常用包
2.1 安裝 Python 包 requests
打開 cmd 終端,輸入 pip install requests,若安裝不成功,可以嘗試:conda install requests
出現 Successfully installed,即表示成功安裝。若需檢測,先輸入 Python,再輸入 import requests,未出現報錯,表示安裝成功,可以正常使用。註:操作完記得退出:quit()。
如果安裝時顯示 conda 不是內部或外部命令,用下面的方式安裝(如未報錯則不必用下面的方法)
在開始菜單打開 Anaconda Prompt:
在 Anaconda Prompt 輸入 conda install requests:
前往 http://www.lfd.uci.e/~gohlke/pythonlibs/,手動下載需要安裝的第三方包(注意對應你的python版本是32位還是64位)。
在下載下來的文件所在目錄按住shift並點擊滑鼠右鍵,選擇在此處打開Powershell窗口,在此命令行中使用 pip install + 下載下來文件全名 ,即可完成安裝。
2.2 安裝 Python 包 lxml
同樣在終端輸入: conda install lxml,出現 Successfully installed,即表示成功安裝,若不能成功安裝,請嘗試如下方法。
所以你該知道如何安裝 Python 包了吧,通用方法是,在終端輸入:conda install + 包名稱 或者 pip install + 包名稱。出現特殊的不能安裝的情況,可以去下載之後進行安裝。
3. Jupyter Notebook
3.1 開啟Jupyter Notebook
在開始菜單打開 Jupyter Notebook:
Jupyter 將會在網頁中自動打開:
3.2 Jupyter Notebook 界面
Files:你當前工作環境下的所有項目(代碼)、默認存儲的文件都在這里:
Runing:你目前正在運行的項目都在這里:
3.3 新建一個文檔,開始寫代碼
依次點擊右上方 :New > Python 3,即新建了一個 Ipython 文件,如圖:
點擊上方 Utitled 可以更改文檔的名稱,下面的空間就可以寫代碼啦:
3.4 Jupyter Notebook 功能簡介
4. 創建第一個實例:爬取網路首頁
僅用四行代碼,我們就可以把網路首頁的內容下載下來:
1.導入 requests 庫;2.下載網路首頁內容;3.更改編碼;4.列印內容
具體爬蟲原理及代碼的內涵,在下一節的案例中詳細講解~
好了,這節課就到這里
③ 【Python3網路爬蟲開發實戰】 1.2.4-GeckoDriver的安裝
GeckoDriver的安裝方法如下:
確保Firefox瀏覽器已安裝:
- 在進行GeckoDriver安裝之前,請確保你的計算機上已經安裝了Firefox瀏覽器,並且能夠正常運行。
下載GeckoDriver:
- 前往GitHub下載與你的操作系統及位數相對應的GeckoDriver版本。例如,對於Windows 64位用戶,應下載geckodriverv0.18.0win64.zip。
配置GeckoDriver:
- Windows環境:將下載的geckodriver.exe文件直接拖放到Python的Scripts目錄中,或者將其配置到系統的環境變數中。配置環境變數的方法可參照相關教程。
- Linux與Mac環境:將下載的GeckoDriver可執行文件配置到環境變數中,或者將其移動至環境變數所包含的目錄中。
測試GeckoDriver安裝:
- 配置完成後,在命令行中執行geckodriver命令進行測試。如果控制台顯示相關信息,說明環境變數配置正確,GeckoDriver已成功安裝。
Python代碼驗證:
- 使用特定的Python代碼進行驗證。如果代碼能夠在命令行中打開空白的Firefox瀏覽器,則證明所有配置均正確。反之,請檢查每一步的配置是否正確執行。
注意事項:
- 若使用的Firefox瀏覽器版本較舊,可能不支持無界面模式。此時,可以考慮安裝無界面瀏覽器PhantomJS,以實現後台運行。但請注意,隨著技術的發展,PhantomJS可能已不再維護或更新,因此在實際應用中需根據具體情況選擇合適的解決方案。
通過以上步驟,你可以成功安裝GeckoDriver,並實現Selenium與Firefox瀏覽器的對接,從而進行網頁抓取等操作。