python爬蟲模塊

發布時間: 2023-06-03 12:13:31

『壹』 python 編程基礎之（五）Scrapy爬蟲框架

經過前面四章的學習，我們已經可以使用Requests庫、Beautiful Soup庫和Re庫，編寫基本的Python爬蟲程序了。那麼這一章就來學習一個專業的網路爬蟲框架--Scrapy。沒錯，是框架，而不是像前面介紹的函數功能庫。

Scrapy是一個快速、功能強大的網路爬蟲框架。

可能大家還不太了解什麼是框架，爬蟲框架其實是實現爬蟲功能的一個軟體結構和功能組件的集合。

簡而言之， Scrapy就是一個爬蟲程序的半成品，可以幫助用戶實現專業的網路爬蟲。

使用Scrapy框架，不需要你編寫大量的代碼，Scrapy已經把大部分工作都做好了，允許你調用幾句代碼便自動生成爬蟲程序，可以節省大量的時間。

當然，框架所生成的代碼基本是一致的，如果遇到一些特定的爬蟲任務時，就不如自己使用Requests庫搭建來的方便了。

PyCharm安裝

測試安裝：

出現框架版本說明安裝成功。

掌握Scrapy爬蟲框架的結構是使用好Scrapy的重中之重！

先上圖：

整個結構可以簡單地概括為： 「5+2」結構和3條數據流

5個主要模塊（及功能）：

（1）控制所有模塊之間的數據流。

（2）可以根據條件觸發事件。

（1）根據請求下載網頁。

（1）對所有爬取請求進行調度管理。

（1）解析DOWNLOADER返回的響應--response。

（2）產生爬取項--scraped item。

（3）產生額外的爬取請求--request。

（1）以流水線方式處理SPIDER產生的爬取項。

（2）由一組操作順序組成，類似流水線，每個操作是一個ITEM PIPELINES類型。

（3）清理、檢查和查重爬取項中的HTML數據並將數據存儲到資料庫中。

2個中間鍵：

（1）對Engine、Scheler、Downloader之間進行用戶可配置的控制。

（2）修改、丟棄、新增請求或響應。

（1）對請求和爬取項進行再處理。

（2）修改、丟棄、新增請求或爬取項。

3條數據流：

（1）：圖中數字 1-2

1：Engine從Spider處獲得爬取請求--request。

2：Engine將爬取請求轉發給Scheler，用於調度。

（2）：圖中數字 3-4-5-6

3：Engine從Scheler處獲得下一個要爬取的請求。

4：Engine將爬取請求通過中間件發送給Downloader。

5：爬取網頁後，Downloader形成響應--response，通過中間件發送給Engine。

6：Engine將收到的響應通過中間件發送給Spider處理。

（3）：圖中數字 7-8-9

7：Spider處理響應後產生爬取項--scraped item。

8：Engine將爬取項發送給Item Pipelines。

9：Engine將爬取請求發送給Scheler。

任務處理流程：從Spider的初始爬取請求開始爬取，Engine控制各模塊數據流，不間斷從Scheler處獲得爬取請求，直至請求為空，最後到Item Pipelines存儲數據結束。

作為用戶，只需配置好Scrapy框架的Spider和Item Pipelines，也就是數據流的入口與出口，便可完成一個爬蟲程序的搭建。Scrapy提供了簡單的爬蟲命令語句，幫助用戶一鍵配置剩餘文件，那我們便來看看有哪些好用的命令吧。

Scrapy採用命令行創建和運行爬蟲

PyCharm打開Terminal，啟動Scrapy：

Scrapy基本命令行格式：

具體常用命令如下：

下面用一個例子來學習一下命令的使用：

1.建立一個Scrapy爬蟲工程，在已啟動的Scrapy中繼續輸入：

執行該命令，系統會在PyCharm的工程文件中自動創建一個工程，命名為pythonDemo。

2.產生一個Scrapy爬蟲，以教育部網站為例http://www.moe.gov.cn：

命令生成了一個名為demo的spider，並在Spiders目錄下生成文件demo.py。

命令僅用於生成demo.py文件，該文件也可以手動生成。

觀察一下demo.py文件：

3.配置產生的spider爬蟲，也就是demo.py文件：

4.運行爬蟲，爬取網頁：

如果爬取成功，會發現在pythonDemo下多了一個t20210816_551472.html的文件，我們所爬取的網頁內容都已經寫入該文件了。

以上就是Scrapy框架的簡單使用了。

Request對象表示一個HTTP請求，由Spider生成，由Downloader執行。

Response對象表示一個HTTP響應，由Downloader生成，有Spider處理。

Item對象表示一個從HTML頁面中提取的信息內容，由Spider生成，由Item Pipelines處理。Item類似於字典類型，可以按照字典類型來操作。

『貳』 python爬蟲項目實戰：爬取用戶的所有信息，如性別、年齡等

python爬蟲項目實戰：
爬取糗事網路用戶的所有信息，包括用戶名、性別、年齡、內容等等。

10個步驟實現項目功能，下面開始實例講解：
1.導入模塊
import re
import urllib.request
from bs4 import BeautifulSoup
2.添加頭文件，防止爬取過程被咐跡鏈拒絕衡孫鏈接
def qiuShi(url,page):
################### 模擬成高仿度瀏覽器的行為 ##############

heads ={
'Connection':'keep-alive',
'Accept-Language':'zh-CN,zh;q=0.9',
'Accept':'text/html,application/xhtml+xml,application/xml;
q=0.9,image/webp,image/apng, / ;q=0.8',
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36
(KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',
}
headall = []
for key,value in heads.items():
items = (key,value)

headall.append(items)

opener = urllib.request.build_opener()

opener.addheaders = headall

urllib.request.install_opener(opener)

data = opener.open(url).read().decode()

################## end ########################################
3.創建soup解析器對象
soup = BeautifulSoup(data,'lxml')
x = 0
4.開始使用BeautifulSoup4解析器提取用州鉛戶名信息
############### 獲取用戶名 ########################
name = []

unames = soup.find_all('h2')

for uname in unames:

name.append(uname.get_text())

#################end#############################
5.提取發表的內容信息
############## 發表的內容 #########################
cont = []
data4 = soup.find_all('div',class_='content')

data4 = str(data4)

soup3 = BeautifulSoup(data4,'lxml')
contents = soup3.find_all('span')
for content in contents:

cont.append(content.get_text())

##############end####################################
6.提取搞笑指數
#################搞笑指數##########################
happy = []

data2 = soup.find_all('span',class_="stats-vote")

data2 = str(data2) # 將列表轉換成字元串形式才可以使用

soup1 = BeautifulSoup(data2,'lxml')
happynumbers = soup1.find_all('i',class_="number")
for happynumber in happynumbers:

happy.append(happynumber.get_text())

##################end#############################
7.提取評論數
############## 評論數 ############################
comm = []
data3 = soup.find_all('a',class_='qiushi_comments')
data3 = str(data3)

soup2 = BeautifulSoup(data3,'lxml')
comments = soup2.find_all('i',class_="number")
for comment in comments:

comm.append(comment.get_text())
############end#####################################
8.使用正則表達式提取性別和年齡
######## 獲取性別和年齡 ##########################

pattern1 = '<div class="articleGender (w ?)Icon">(d ?)</div>'
sexages = re.compile(pattern1).findall(data)

9.設置用戶所有信息輸出的格局設置
################## 批量輸出用戶的所以個人信息 #################
print()
for sexage in sexages:
sa = sexage
print(' ' 17, '= = 第', page, '頁-第', str(x+1) + '個用戶 = = ',' ' 17)

print('【用戶名】：',name[x],end='')

print('【性別】：',sa[0],' 【年齡】：',sa[1])

print('【內容】：',cont[x])

print('【搞笑指數】：',happy[x],' 【評論數】：',comm[x])
print(' ' 25,' 三八分割線 ',' ' 25)
x += 1
###################end##########################
10.設置循環遍歷爬取13頁的用戶信息
for i in range(1,14):

url = ' https://www.qiushike.com/8hr/page/'+str(i)+'/'
qiuShi(url,i)
運行結果，部分截圖：

『叄』精通Python網路爬蟲之網路爬蟲學習路線

欲精通Python網路爬蟲，必先了解網路爬蟲學習路線，本篇經驗主要解決這個問題。部分內容參考自書籍《精通Python網路爬蟲》。

作者：韋瑋

轉載請註明出處

隨著大數據時代的到來，人們對數據資源的需求越來越多，而爬蟲是一種很好的自動採集數據的手段。

那麼，如何才能精通Python網路爬蟲呢？學習Python網路爬蟲的路線應該如何進行呢？在此為大傢具體進行介紹。

1、選擇一款合適的編程語言

事實上，Python、PHP、JAVA等常見的語言都可以用於編寫網路爬蟲，你首先需要選擇一款合適的編程語言，這些編程語言各有優勢，可以根據習慣進行選擇。在此筆者推薦使用Python進行爬蟲項目的編寫，其優點是：簡潔、掌握難度低。

2、掌握Python的一些基礎爬蟲模塊

當然，在進行這一步之前，你應當先掌握Python的一些簡單語法基礎，然後才可以使用Python語言進行爬蟲項目的開發。

在掌握了Python的語法基礎之後，你需要重點掌握一個Python的關於爬蟲開發的基礎模塊。這些模塊有很多可以供你選擇，比如urllib、requests等等，只需要精通一個基礎模塊即可，不必要都精通，因為都是大同小異的，在此推薦的是掌握urllib，當然你可以根據你的習慣進行選擇。

3、深入掌握一款合適的表達式

學會了如何爬取網頁內容之後，你還需要學會進行信息的提取。事實上，信息的提取你可以通過表達式進行實現，同樣，有很多表達式可以供你選擇使用，常見的有正則表達式、XPath表達式、BeautifulSoup等，這些表達式你沒有必要都精通，同樣，精通1-2個，其他的掌握即可，在此建議精通掌握正則表達式以及XPath表達式，其他的了解掌握即可。正則表達式可以處理的數據的范圍比較大，簡言之，就是能力比較強，XPath只能處理XML格式的數據，有些形式的數據不能處理，但XPath處理數據會比較快。

4、深入掌握抓包分析技術

事實上，很多網站都會做一些反爬措施，即不想讓你爬到他的數據。最常見的反爬手段就是對數據進行隱藏處理，這個時候，你就無法直接爬取相關的數據了。作為爬蟲方，如果需要在這種情況下獲取數據，那麼你需要對相應的數據進行抓包分析，然後再根據分析結果進行處理。一般推薦掌握的抓包分析工具是Fiddler，當然你也可以用其他的抓包分析工具，沒有特別的要求。

5、精通一款爬蟲框架

事實上，當你學習到這一步的時候，你已經入門了。

這個時候，你可能需要深入掌握一款爬蟲框架，因為採用框架開發爬蟲項目，效率會更加高，並且項目也會更加完善。

同樣，你可以有很多爬蟲框架進行選擇，比如Scrapy、pySpider等等，一樣的，你沒必要每一種框架都精通，只需要精通一種框架即可，其他框架都是大同小異的，當你深入精通一款框架的時候，其他的框架了解一下事實上你便能輕松使用，在此推薦掌握Scrapy框架，當然你可以根據習慣進行選擇。

6、掌握常見的反爬策略與反爬處理策略

反爬，是相對於網站方來說的，對方不想給你爬他站點的數據，所以進行了一些限制，這就是反爬。

反爬處理，是相對於爬蟲方來說的，在對方進行了反爬策略之後，你還想爬相應的數據，就需要有相應的攻克手段，這個時候，就需要進行反爬處理。

事實上，反爬以及反爬處理都有一些基本的套路，萬變不離其宗，這些後面作者會具體提到，感興趣的可以關注。

常見的反爬策略主要有：

IP限制

UA限制

Cookie限制

資源隨機化存儲

動態載入技術

……

對應的反爬處理手段主要有：

IP代理池技術

用戶代理池技術

Cookie保存與處理

自動觸發技術

抓包分析技術+自動觸發技術

……

這些大家在此先有一個基本的思路印象即可，後面都會具體通過實戰案例去介紹。

7、掌握PhantomJS、Selenium等工具的使用

有一些站點，通過常規的爬蟲很難去進行爬取，這個時候，你需要藉助一些工具模塊進行，比如PhantomJS、Selenium等，所以，你還需要掌握PhantomJS、Selenium等工具的常規使用方法。

8、掌握分布式爬蟲技術與數據去重技術

如果你已經學習或者研究到到了這里，那麼恭喜你，相信現在你爬任何網站都已經不是問題了，反爬對你來說也只是一道形同虛設的牆而已了。

但是，如果要爬取的資源非常非常多，靠一個單機爬蟲去跑，仍然無法達到你的目的，因為太慢了。

所以，這個時候，你還應當掌握一種技術，就是分布式爬蟲技術，分布式爬蟲的架構手段有很多，你可以依據真實的伺服器集群進行，也可以依據虛擬化的多台伺服器進行，你可以採用urllib+redis分布式架構手段，也可以採用Scrapy+redis架構手段，都沒關系，關鍵是，你可以將爬蟲任務部署到多台伺服器中就OK。

至於數據去重技術，簡單來說，目的就是要去除重復數據，如果數據量小，直接採用資料庫的數據約束進行實現，如果數據量很大，建議採用布隆過濾器實現數據去重即可，布隆過濾器的實現在Python中也是不難的。

以上是如果你想精通Python網路爬蟲的學習研究路線，按照這些步驟學習下去，可以讓你的爬蟲技術得到非常大的提升。

至於有些朋友問到，使用Windows系統還是Linux系統，其實，沒關系的，一般建議學習的時候使用Windows系統進行就行，比較考慮到大部分朋友對該系統比較數據，但是在實際運行爬蟲任務的時候，把爬蟲部署到Linux系統中運行，這樣效率比較高。由於Python的可移植性非常好，所以你在不同的平台中運行一個爬蟲，代碼基本上不用進行什麼修改，只需要學會部署到Linux中即可。所以，這也是為什麼說使用Windows系統還是Linux系統進行學習都沒多大影響的原因之一。

本篇文章主要是為那些想學習Python網路爬蟲，但是又不知道從何學起，怎麼學下去的朋友而寫的。希望通過本篇文章，可以讓你對Python網路爬蟲的研究路線有一個清晰的了解，這樣，本篇文章的目的就達到了，加油！

本文章由作者韋瑋原創，轉載請註明出處。

『肆』 Python中的爬蟲框架有哪些呢

實現爬蟲技術的編程環境有很多種，Java、Python、C++等都可以用來爬蟲。但很多人選擇Python來寫爬蟲，為什麼呢？因為Python確實很適合做爬蟲，豐富的第三方庫十分強大，簡單幾行代碼便可實現你想要的功能。更重要的，Python也是數據挖掘和分析的好能手。那麼，Python爬蟲一般用什麼框架比較好？
一般來講，只有在遇到比較大型的需求時，才會使用Python爬蟲框架。這樣的做的主要目的，是為了方便管理以及擴展。本文我將向大家推薦十個Python爬蟲框架。
1、Scrapy：Scrapy是一個為了爬取網站數據，提取結構性數據而編寫的應用框架。可以應用在包括數據挖掘，信息處理或存儲歷史數據等一系列的程序中。它是很強大的爬蟲框架，可以滿足簡單的頁面爬取，比如可以明確獲知url pattern的情況。用這個框架可以輕松爬下來如亞馬遜商品信息之類的數據。但是對於稍微復雜一點的頁面，如weibo的頁面信息，這個框架就滿足不了需求了。它的特性有：HTML, XML源數據選擇及提取的內置支持；提供了一系列在spider之間共享的可復用的過濾器(即 Item Loaders)，對智能處理爬取數據提供了內置支持。
2、Crawley：高速爬取對應網站的內容，支持關系和非關系資料庫，數據可以導出為JSON、XML等。
3、Portia：是一個開源可視化爬蟲工具，可讓使用者在不需要任何編程知識的情況下爬取網站！簡單地注釋自己感興趣的頁面，Portia將創建一個蜘蛛來從類似的頁面提取數據。簡單來講，它是基於scrapy內核；可視化爬取內容，不需要任何開發專業知識；動態匹配相同模板的內容。

4、newspaper：可以用來提取新聞、文章和內容分析。使用多線程，支持10多種語言等。作者從requests庫的簡潔與強大得到靈感，使用Python開發的可用於提取文章內容的程序。支持10多種語言並且所有的都是unicode編碼。
5、Python-goose：Java寫的文章提取工具。Python-goose框架可提取的信息包括：文章主體內容、文章主要圖片、文章中嵌入的任何Youtube/Vimeo視頻、元描述、元標簽。
6、Beautiful Soup：名氣大，整合了一些常用爬蟲需求。它是一個可以從HTML或XML文件中提取數據的Python庫。它能夠通過你喜歡的轉換器實現慣用的文檔導航,查找,修改文檔的方式.Beautiful Soup會幫你節省數小時甚至數天的工作時間。Beautiful Soup的缺點是不能載入JS。
7、mechanize：它的優點是可以載入JS。當然它也有缺點，比如文檔嚴重缺失。不過通過官方的example以及人肉嘗試的方法，還是勉強能用的。
8、selenium：這是一個調用瀏覽器的driver，通過這個庫你可以直接調用瀏覽器完成某些操作，比如輸入驗證碼。Selenium是自動化測試工具，它支持各種瀏覽器，包括 Chrome，Safari，Firefox等主流界面式瀏覽器，如果在這些瀏覽器裡面安裝一個 Selenium 的插件，可以方便地實現Web界面的測試. Selenium支持瀏覽器驅動。Selenium支持多種語言開發，比如 Java，C，Ruby等等，PhantomJS 用來渲染解析JS，Selenium 用來驅動以及與Python的對接，Python進行後期的處理。
9、cola：是一個分布式的爬蟲框架，對於用戶來說，只需編寫幾個特定的函數，而無需關注分布式運行的細節。任務會自動分配到多台機器上，整個過程對用戶是透明的。項目整體設計有點糟，模塊間耦合度較高。
10、PySpider：一個國人編寫的強大的網路爬蟲系統並帶有強大的WebUI。採用Python語言編寫，分布式架構，支持多種資料庫後端，強大的WebUI支持腳本編輯器，任務監視器，項目管理器以及結果查看器。Python腳本控制，可以用任何你喜歡的html解析包。

『伍』 Python爬蟲筆記（二）requests模塊get，post，代理

import requests

base_url = 'https://www..com'

response = requests.get(base_url)

url=請求url，

headers =請求頭字典，

params = 請求參數字典。

timeout = 超時時長，

)---->response對象

伺服器響應包含：狀態行（協議，狀態碼）、響應頭，空行，響應正文

字元串格式：response.text

bytes類型：response.content

response.headers['cookie']

response.text獲取到的字元串類型的響應正文，

其實是通過下面的步驟獲取的：

response.text = response.content.decode(response.encoding)

產生的原因：編碼和解碼的編碼格式不一致造成的。

str.encode('編碼')---將字元串按指定編碼解碼成bytes類型

bytes.decode('編碼')---將bytes類型按指定編碼編碼成字元串。

a、response.content.decode('頁面正確的編碼格式')

<meta http-equiv="content-type" content="text/html;charset=utf-8">

b、找到正確的編碼，設置到response.encoding中

response.encoding = 正確的編碼

response.text--->正確的頁面內容。

a、沒有請求參數的情況下，只需要確定url和headers字典。

b、get請求是有請求參數。

在chrome瀏覽器中，下面找query_string_params,

將裡面的參數封裝到params字典中。

c、分頁主要是查看每頁中，請求參數頁碼欄位的變化，

找到變化規律，用for循環就可以做到分頁。

requests.post(

url=請求url，

headers = 請求頭字典，

data=請求數據字典

timeout=超時時長

)---response對象

post請求一般返回數據都是json數據。

（1）response.json()--->json字元串所對應的python的list或者dict

（2）用 json 模塊。

json.loads(json_str)---->json_data(python的list或者dict)

json.mps(json_data)--->json_str

post請求能否成功，關鍵看**請求參數**。

如何查找是哪個請求參數在影響數據獲取？

--->通過對比，找到變化的參數。

變化參數如何找到參數的生成方式，就是解決這個ajax請求數據獲取的途徑。

**尋找的辦法**有以下幾種：

（1）寫死在頁面。

（2）寫在js中。

（3）請求參數是在之前的一條ajax請求的數據裡面提前獲取好的。

代理形象的說，他是網路信息中轉站。

實際上就是在本機和伺服器之間架了一座橋。

a、突破自身ip訪問現實，可以訪問一些平時訪問不到網站。

b、訪問一些單位或者團體的資源。

c、提高訪問速度。代理的伺服器主要作用就是中轉，

所以一般代理服務裡面都是用內存來進行數據存儲的。

d、隱藏ip。

ftp 代理伺服器---21,2121

HTTP代理伺服器---80,8080

SSL/TLS代理：主要用訪問加密網站。埠：443

telnet代理：主要用telnet遠程式控制制，埠一般為23

高度匿名代理：數據包會原封不動轉化，在服務段看來，就好像一個普通用戶在訪問，做到完全隱藏ip。

普通匿名代理：數據包會做一些改動，伺服器有可能找到原ip。

透明代理：不但改動數據，還會告訴服務，是誰訪問的。

間諜代理：指組織或者個人用於記錄用戶傳輸數據，然後進行研究，監控等目的的代理。

proxies = {

'代理伺服器的類型':'代理ip'

}

response = requests.get(proxies = proxies)

代理伺服器的類型:http,https,ftp

代理ip:http://ip:port

閱讀全文

熱點內容

忘記華為賬號密碼如何更改發布：2025-07-12 21:43:20 瀏覽：777

字體android 發布：2025-07-12 21:30:38 瀏覽：621

資料庫中包含發布：2025-07-12 21:25:08 瀏覽：621

艦娘緩存系統發布：2025-07-12 21:21:21 瀏覽：100

cpu對存儲器的讀寫發布：2025-07-12 21:21:14 瀏覽：772

如何建立一個網站需要伺服器發布：2025-07-12 21:18:40 瀏覽：67

php登陸微信發布：2025-07-12 21:17:55 瀏覽：14

公眾伺服器有什麼功能發布：2025-07-12 21:11:22 瀏覽：715

健身的壓縮衣發布：2025-07-12 21:11:12 瀏覽：754

磁碟伺服器如何管理磁碟發布：2025-07-12 21:02:19 瀏覽：470

python爬蟲模塊

與python爬蟲模塊相關的資訊