python爬蟲豆瓣250

發布時間: 2023-06-02 06:59:56

❶ python爬蟲實戰（1）requests爬取豆瓣電影TOP250

爬取時間：2020/11/25
系統環境：Windows 10
所用工具：Jupyter NotebookPython 3.0
涉及的庫：requestslxmlpandasmatplotlib umpy

蛋肥想法： 先將電影名稱、原名、評分、評價人數、分類信息從網站上爬取下來。

蛋肥想法： print數據列表後發現電影原名、分類信息等存在不需要的字元，需預先處理；同時因為後續想做一個豆瓣電影TOP250的維度分布圖，而同一電影存在多個發行國家、類型（如「法國美國 / 劇情動作犯罪」），為了簡（偷）便（懶），這里均取第一個作為記入的數據；最後將數據保存為xlsx。

蛋肥想法： 蛋肥想知道在豆瓣電影TOP250中年份、國家、類型的維度數據，為了練手，使用剛才保存成xlsx的數據，並分別畫成雷達圖、柱形圖、扇形圖。

❷ python爬蟲怎麼做

大到各類搜索引擎，小到日常數據採集，都離不開網路爬蟲。爬蟲的基本原理很簡單，遍歷網路中網頁，抓取感興趣的數據內容。這篇文章會從零開始介紹如何編寫一個網路爬蟲抓取數據做告宏，然後會一步步逐漸完善爬蟲的抓取功能。

工具安裝

我們需要安裝python，python的requests和BeautifulSoup庫。我們用Requests庫用抓取網頁的內容，使用BeautifulSoup庫來從網頁中提取數據。

安裝python

運行pipinstallrequests

運行pipinstallBeautifulSoup

抓取網頁

完成必要工具安裝後，我們正式開始編寫我們的爬蟲。我們的第一個任務是要抓取所有豆瓣上的圖書信息。我們以/subject/26986954/為例，首先看看開如何抓取網頁的內容。

使用python的requests提供的get()方法我們可以非常簡單的獲取的指定網頁的內純冊容,代碼如下：

提取內容

抓取到網頁的內容後，我們要做的就是提取出我們想要的內容。在我們的第一個例子中，我們只需要提取書名。首先我們導入BeautifulSoup庫，使用BeautifulSoup我們可以非常簡單的提取網頁的特定內容。

連續抓取網頁

到目前為止，我們已經可以抓取單個網頁的內容了，現在讓我們看看如何抓取整個網站的內容。我們知道網頁之間是通過超鏈接互相連接在一起的，通過鏈接我們可以訪問整個網路。所以我們可以從每個頁面提取出包含指向其它網頁的鏈接，然後重復的對新鏈接進行抓取。

通過以上幾步我們就可以寫出一個最原始的爬蟲。在理解了爬蟲原理的基礎上，我們可以進一步對爬蟲進行完善。

寫過一個系列關於爬蟲的文章：/i6567289381185389064/。感興趣的可以前往查看。

Python基本環境的搭建，爬蟲的基本原理以及爬蟲的原型

Python爬蟲入門(第1部分)

如何使用BeautifulSoup對網頁內容進行提取

Python爬蟲入門(第2部分)

爬蟲運行時數據的存儲數據，以sqlite和MySQL作為示例

Python爬蟲入門(第3部分)

使用seleniumwebdriver對動態網頁進行抓取

Python爬蟲入門(第4部分)

討論了如何處理網站的反爬蟲策略

Python爬友如蟲入門(第5部分)

對Python的Scrapy爬蟲框架做了介紹，並簡單的演示了如何在Scrapy下進行開發

Python爬蟲入門(第6部分)

❸ python爬蟲小白求幫助：爬取豆瓣網的內容不知道哪裡出問題了只能print一行

只獲取到一個movie_name 和一個movies_score，然後遍歷這兩個值，循環一定是只走兩遍。不知道你這個是不是豆瓣top250 我看頁面元素好像不對了

❹ 豆瓣為什麼用python

1.從語言排行榜上看
Python雖然是25歲的大叔級編程語言，但是近年來Python反而變得越來越流行，在TIOBE編程語言指數排行榜中，Python的排名從去年的第六名飆升到了第四名:

2.語言本身簡潔，優美,功能超級強大
Python的語法非常接近英語,去掉了傳統的C++/java使用大括弧來區分一個方法體或者類的形式，而是採用強制縮進來表示一個方法或者類。風格統一，非常優美.而且內置了很多高效的庫，打個比方，同樣一項工作C語言可能要1000行，java要100行，python可能只要10行. 而且從桌面應用,web開發,自動化測試運維，爬蟲，人工智慧，大數據處理都能做，以後會詳細講一下.

3.跨平台
類似很多流行編程語言Java、C++、C都能跨平台而且開源，Python也是如此
由於它是開源的，所以也支持可移植性。你可以隨處運行Python，換句話說你在window上寫的代碼，可以很方便的再linux,mac上運行。

4.非常火爆的社區
Python有非常有名的社區，而且人氣很火爆，大家可以去python官網經常逛逛，還有github上搜一下python的帖子，很多開源的庫，你能想到的基本都已經有人開發了.而且版本還在不斷的迭代.

5.很多有名的大公司在用
國外非常有名的有Google,facebook,Yahoo,YueTube,還有美國宇航局NASA,像著名的開源雲計算平台openstack也是用python寫的,還有國內的豆瓣也是用python寫的.

❺ 如何用python爬取豆瓣讀書的數據

這兩天爬了豆瓣讀書的十萬條左右的書目信息，用時將近一天，現在趁著這個空閑把代碼總結一下，還是菜鳥，都是用的最簡單最笨的方法，還請路過的大神不吝賜教。
第一步，先看一下我們需要的庫：

import requests #用來請求網頁
from bs4 import BeautifulSoup #解析網頁
import time #設置延時時間，防止爬取過於頻繁被封IP號
import re #正則表達式庫
import pymysql #由於爬取的數據太多，我們要把他存入MySQL資料庫中，這個庫用於連接資料庫
import random #這個庫里用到了產生隨機數的randint函數，和上面的time搭配，使爬取間隔時間隨機

這個是豆瓣的網址：x-sorttags-all
我們要從這里獲取所有分類的標簽鏈接，進一步去爬取裡面的信息，代碼先貼上來：

import requests
from bs4 import BeautifulSoup #導入庫

url="httom/tag/?icn=index-nav"
wb_data=requests.get(url) #請求網址
soup=BeautifulSoup(wb_data.text,"lxml") #解析網頁信息
tags=soup.select("#content > div > div.article > div > div > table > tbody > tr > td > a")
#根據CSS路徑查找標簽信息，CSS路徑獲取方法，右鍵-檢查- selector，tags返回的是一個列表
for tag in tags:
tag=tag.get_text() #將列表中的每一個標簽信息提取出來
helf="hom/tag/"
#觀察一下豆瓣的網址，基本都是這部分加上標簽信息，所以我們要組裝網址，用於爬取標簽詳情頁
url=helf+str(tag)
print(url) #網址組裝完畢，輸出

以上我們便爬取了所有標簽下的網址，我們將這個文件命名為channel,並在channel中創建一個channel字元串，放上我們所有爬取的網址信息，等下爬取詳情頁的時候直接從這里提取鏈接就好了，如下：

channel='''
tag/程序
'''

現在，我們開始第二個程序。

QQ圖片20160915233329.png

標簽頁下每一個圖片的信息基本都是這樣的，我們可以直接從這里提取到標題，作者，出版社，出版時間，價格，評價人數，以及評分等信息（有些外國作品還會有譯者信息），提取方法與提取標簽類似，也是根據CSS路徑提取。
我們先用一個網址來實驗爬取：

url="htt/tag/科技"
wb_data = requests.get(url)
soup = BeautifulSoup(wb_data.text.encode("utf-8"), "lxml")
tag=url.split("?")[0].split("/")[-1] #從鏈接裡面提取標簽信息，方便存儲
detils=soup.select("#subject_list > ul > li > div.info > div.pub") #抓取作者，出版社信息，稍後我們用spite()函數再將他們分離出來
scors=soup.select("#subject_list > ul > li > div.info > div.star.clearfix > span.rating_nums") #抓取評分信息
persons=soup.select("#subject_list > ul > li > div.info > div.star.clearfix > span.pl") #評價人數
titles=soup.select("#subject_list > ul > li > div.info > h2 > a") #書名
#以上抓取的都是我們需要的html語言標簽信息，我們還需要將他們一一分離出來
for detil,scor,person,title in zip(detils,scors,persons,titles):
#用一個zip()函數實現一次遍歷
#因為一些標簽中有譯者信息，一些標簽中沒有，為避免錯誤，所以我們要用一個try來把他們分開執行
try:
author=detil.get_text().split("/",4)[0].split()[0] #這是含有譯者信息的提取辦法，根據「/」把標簽分為五部分，然後依次提取出來
yizhe= detil.get_text().split("/", 4)[1]
publish=detil.get_text().split("/", 4)[2]
time=detil.get_text().split("/", 4)[3].split()[0].split("-")[0] #時間我們只提取了出版年份
price=ceshi_priceone(detil) #因為價格的單位不統一，我們用一個函數把他們換算為「元」
scoe=scor.get_text() if True else "" #有些書目是沒有評分的，為避免錯誤，我們把沒有評分的信息設置為空
person=ceshi_person(person) #有些書目的評價人數顯示少於十人，爬取過程中會出現錯誤，用一個函數來處理
title=title.get_text().split()[0]
#當沒有譯者信息時，會顯示IndexError，我們分開處理
except IndexError:
try:
author=detil.get_text().split("/", 3)[0].split()[0]
yizhe="" #將detil信息劃分為4部分提取，譯者信息直接設置為空，其他與上面一樣
publish=detil.get_text().split("/", 3)[1]
time=detil.get_text().split("/", 3)[2].split()[0].split("-")[0]
price=ceshi_pricetwo(detil)
scoe=scor.get_text() if True else ""
person=ceshi_person(person)
title=title.get_text().split()[0]
except (IndexError,TypeError):
continue
#出現其他錯誤信息，忽略，繼續執行（有些書目信息下會沒有出版社或者出版年份，但是數量很少，不影響我們大規模爬取，所以直接忽略）
except TypeError:
continue

#提取評價人數的函數，如果評價人數少於十人，按十人處理
def ceshi_person(person):
try:
person = int(person.get_text().split()[0][1:len(person.get_text().split()[0]) - 4])
except ValueError:
person = int(10)
return person

#分情況提取價格的函數，用正則表達式找到含有特殊字元的信息，並換算為「元」
def ceshi_priceone(price):
price = detil.get_text().split("/", 4)[4].split()
if re.match("USD", price[0]):
price = float(price[1]) * 6
elif re.match("CNY", price[0]):
price = price[1]
elif re.match("A$", price[0]):
price = float(price[1:len(price)]) * 6
else:
price = price[0]
return price
def ceshi_pricetwo(price):
price = detil.get_text().split("/", 3)[3].split()
if re.match("USD", price[0]):
price = float(price[1]) * 6
elif re.match("CNY", price[0]):
price = price[1]
elif re.match("A$", price[0]):
price = float(price[1:len(price)]) * 6
else:
price = price[0]
return price

實驗成功後，我們就可以爬取數據並導入到資料庫中了，以下為全部源碼，特殊情況會用注釋一一說明。

import requests
from bs4 import BeautifulSoup
import time
import re
import pymysql
from channel import channel #這是我們第一個程序爬取的鏈接信息
import random

def ceshi_person(person):
try:
person = int(person.get_text().split()[0][1:len(person.get_text().split()[0]) - 4])
except ValueError:
person = int(10)
return person

def ceshi_priceone(price):
price = detil.get_text().split("/", 4)[4].split()
if re.match("USD", price[0]):
price = float(price[1]) * 6
elif re.match("CNY", price[0]):
price = price[1]
elif re.match("A$", price[0]):
price = float(price[1:len(price)]) * 6
else:
price = price[0]
return price

def ceshi_pricetwo(price):
price = detil.get_text().split("/", 3)[3].split()
if re.match("USD", price[0]):
price = float(price[1]) * 6
elif re.match("CNY", price[0]):
price = price[1]
elif re.match("A$", price[0]):
price = float(price[1:len(price)]) * 6
else:
price = price[0]
return price

#這是上面的那個測試函數，我們把它放在主函數中
def mains(url):
wb_data = requests.get(url)
soup = BeautifulSoup(wb_data.text.encode("utf-8"), "lxml")
tag=url.split("?")[0].split("/")[-1]
detils=soup.select("#subject_list > ul > li > div.info > div.pub")
scors=soup.select("#subject_list > ul > li > div.info > div.star.clearfix > span.rating_nums")
persons=soup.select("#subject_list > ul > li > div.info > div.star.clearfix > span.pl")
titles=soup.select("#subject_list > ul > li > div.info > h2 > a")
for detil,scor,person,title in zip(detils,scors,persons,titles):
l = [] #建一個列表，用於存放數據
try:
author=detil.get_text().split("/",4)[0].split()[0]
yizhe= detil.get_text().split("/", 4)[1]
publish=detil.get_text().split("/", 4)[2]
time=detil.get_text().split("/", 4)[3].split()[0].split("-")[0]
price=ceshi_priceone(detil)
scoe=scor.get_text() if True else ""
person=ceshi_person(person)
title=title.get_text().split()[0]
except IndexError:
try:
author=detil.get_text().split("/", 3)[0].split()[0]
yizhe=""
publish=detil.get_text().split("/", 3)[1]
time=detil.get_text().split("/", 3)[2].split()[0].split("-")[0]
price=ceshi_pricetwo(detil)
scoe=scor.get_text() if True else ""
person=ceshi_person(person)
title=title.get_text().split()[0]
except (IndexError,TypeError):
continue

except TypeError:
continue
l.append([title,scoe,author,price,time,publish,person,yizhe,tag])
#將爬取的數據依次填入列表中

sql="INSERT INTO allbooks values(%s,%s,%s,%s,%s,%s,%s,%s,%s)" #這是一條sql插入語句
cur.executemany(sql,l) #執行sql語句，並用executemary()函數批量插入資料庫中
conn.commit()

#主函數到此結束

# 將Python連接到MySQL中的python資料庫中
conn = pymysql.connect( user="root",password="123123",database="python",charset='utf8')
cur = conn.cursor()

cur.execute('DROP TABLE IF EXISTS allbooks') #如果資料庫中有allbooks的資料庫則刪除
sql = """CREATE TABLE allbooks(
title CHAR(255) NOT NULL,
scor CHAR(255),
author CHAR(255),
price CHAR(255),
time CHAR(255),
publish CHAR(255),
person CHAR(255),
yizhe CHAR(255),
tag CHAR(255)
)"""
cur.execute(sql) #執行sql語句，新建一個allbooks的資料庫

start = time.clock() #設置一個時鍾，這樣我們就能知道我們爬取了多長時間了
for urls in channel.split():
urlss=[urls+"?start={}&type=T".format(str(i)) for i in range(0,980,20)] #從channel中提取url信息，並組裝成每一頁的鏈接
for url in urlss:
mains(url) #執行主函數，開始爬取
print(url) #輸出要爬取的鏈接，這樣我們就能知道爬到哪了，發生錯誤也好處理
time.sleep(int(format(random.randint(0,9)))) #設置一個隨機數時間，每爬一個網頁可以隨機的停一段時間，防止IP被封
end = time.clock()
print('Time Usage:', end - start) #爬取結束，輸出爬取時間
count = cur.execute('select * from allbooks')
print('has %s record' % count) #輸出爬取的總數目條數

# 釋放數據連接
if cur:
cur.close()
if conn:
conn.close()

這樣，一個程序就算完成了，豆瓣的書目信息就一條條地寫進了我們的資料庫中，當然，在爬取的過程中，也遇到了很多問題，比如標題返回的信息拆分後中會有空格，寫入資料庫中會出現錯誤，所以只截取了標題的第一部分，因而導致資料庫中的一些書名不完整，過往的大神如果有什麼辦法，還請指教一二。
等待爬取的過程是漫長而又欣喜的，看著電腦上一條條信息被刷出來，成就感就不知不覺湧上心頭；然而如果你吃飯時它在爬，你上廁所時它在爬，你都已經爬了個山回來了它還在爬時，便會有點崩潰了，擔心電腦隨時都會壞掉（還是窮學生換不起啊啊啊啊~）
所以，還是要好好學學設置斷點，多線程，以及正則，路漫漫其修遠兮，吾將上下而求索~共勉~

❻ .利用python獲得豆瓣電影前30部電影的中文片名,排名,導演,主演,上映時間

熱門頻道

首頁

博客

研修院

VIP

APP

問答

下載

社區

推薦頻道

活動

招聘

專題

打開CSDN APP
Copyright © 1999-2020, CSDN.NET, All Rights Reserved

打開APP

python 網路爬蟲 1.2 獲取豆瓣TOP250電影的中英文名、港台名、導演、上映年份、電影分類以及評分，將數據存入文檔。原創
2021-07-19 01:03:15
2點贊

zynaln

碼齡8年

關注
題目：
獲取豆瓣TOP250電影的中英文名、港台名、導演、上映年份、電影分類以及評分，將數據存入文檔。
代碼：

輸出結果：

文章知識點與官方知識檔案匹配
Python入門技能樹網路爬蟲urllib
201761 人正在系統學習中
打開CSDN APP，看更多技術內容

最新發布用python爬取豆瓣影評及影片信息(評論時間、用戶ID、評論內容)
用python爬取豆瓣影評及影片信息(評論時間、用戶ID、評論內容)
繼續訪問

python
寫評論

7

14

2

踩

分享

❼ python爬蟲怎麼處理豆瓣網頁異常請求

1.URLError

首先解釋下URLError可能產生的原因：

網路無連接，即本機無法上網
連接不到特定的伺服器
伺服器不存在

在代碼中，我們需要用try-except語句來包圍並捕獲相應的異常。下面是一個例子，先感受下它的風騷

Python

import urllib2

requset = urllib2.Request('http://www.xxxxx.com')

try:

urllib2.urlopen(requset)

except urllib2.URLError, e:

print e.reason

我們利用了 urlopen方法訪問了一個不存在的網址，運行結果如下：

Python

[Errno 11004] getaddrinfo failed

它說明了錯誤代號是11004，錯誤原因是 getaddrinfo failed

2.HTTPError

HTTPError是URLError的子類，在你利用urlopen方法發出一個請求時，伺服器上都會對應一個應答對象response，其中它包含一個數字」狀態碼」。舉個例子，假如response是一個」重定向」，需定位到別的地址獲取文檔，urllib2將對此進行處理。

其他不能處理的，urlopen會產生一個HTTPError，對應相應的狀態嗎，HTTP狀態碼表示HTTP協議所返回的響應的狀態。下面將狀態碼歸結如下：

100：繼續客戶端應當繼續發送請求。客戶端應當繼續發送請求的剩餘部分，或者如果請求已經完成，忽略這個響應。

101：轉換協議在發送完這個響應最後的空行後，伺服器將會切換到在Upgrade 消息頭中定義的那些協議。只有在切換新的協議更有好處的時候才應該採取類似措施。

102：繼續處理由WebDAV（RFC 2518）擴展的狀態碼，代表處理將被繼續執行。

200：請求成功處理方式：獲得響應的內容，進行處理

201：請求完成，結果是創建了新資源。新創建資源的URI可在響應的實體中得到處理方式：爬蟲中不會遇到

202：請求被接受，但處理尚未完成處理方式：阻塞等待

204：伺服器端已經實現了請求，但是沒有返回新的信息。如果客戶是用戶代理，則無須為此更新自身的文檔視圖。處理方式：丟棄

300：該狀態碼不被HTTP/1.0的應用程序直接使用，只是作為3XX類型回應的默認解釋。存在多個可用的被請求資源。處理方式：若程序中能夠處理，則進行進一步處理，如果程序中不能處理，則丟棄
301：請求到的資源都會分配一個永久的URL，這樣就可以在將來通過該URL來訪問此資源處理方式：重定向到分配的URL

302：請求到的資源在一個不同的URL處臨時保存處理方式：重定向到臨時的URL

304：請求的資源未更新處理方式：丟棄

400：非法請求處理方式：丟棄

401：未授權處理方式：丟棄

403：禁止處理方式：丟棄

404：沒有找到處理方式：丟棄

500：伺服器內部錯誤伺服器遇到了一個未曾預料的狀況，導致了它無法完成對請求的處理。一般來說，這個問題都會在伺服器端的源代碼出現錯誤時出現。

501：伺服器無法識別伺服器不支持當前請求所需要的某個功能。當伺服器無法識別請求的方法，並且無法支持其對任何資源的請求。

502：錯誤網關作為網關或者代理工作的伺服器嘗試執行請求時，從上游伺服器接收到無效的響應。

503：服務出錯由於臨時的伺服器維護或者過載，伺服器當前無法處理請求。這個狀況是臨時的，並且將在一段時間以後恢復。

HTTPError實例產生後會有一個code屬性，這就是是伺服器發送的相關錯誤號。
因為urllib2可以為你處理重定向，也就是3開頭的代號可以被處理，並且100-299范圍的號碼指示成功，所以你只能看到400-599的錯誤號碼。

下面我們寫一個例子來感受一下，捕獲的異常是HTTPError，它會帶有一個code屬性，就是錯誤代號，另外我們又列印了reason屬性，這是它的父類URLError的屬性。

Python

import urllib2

req = urllib2.Request('httt/cqcre')

try:

urllib2.urlopen(req)

except urllib2.HTTPError, e:

print e.code

print e.reason

運行結果如下

Python

403

Forbidden

錯誤代號是403，錯誤原因是Forbidden，說明伺服器禁止訪問。

我們知道，HTTPError的父類是URLError，根據編程經驗，父類的異常應當寫到子類異常的後面，如果子類捕獲不到，那麼可以捕獲父類的異常，所以上述的代碼可以這么改寫

Python

import urllib2

req = urllib2.Request('hcqcre')

try:

urllib2.urlopen(req)

except urllib2.HTTPError, e:

print e.code

except urllib2.URLError, e:

print e.reason

else:

print "OK"

如果捕獲到了HTTPError，則輸出code，不會再處理URLError異常。如果發生的不是HTTPError，則會去捕獲URLError異常，輸出錯誤原因。

另外還可以加入 hasattr屬性提前對屬性進行判斷，代碼改寫如下

Python

import urllib2

req = urllib2.Request('httcqcre')

try:

urllib2.urlopen(req)

except urllib2.URLError, e:

if hasattr(e,"code"):

print e.code

if hasattr(e,"reason"):

print e.reason

else:

print "OK"

首先對異常的屬性進行判斷，以免出現屬性輸出報錯的現象。

以上，就是對URLError和HTTPError的相關介紹，以及相應的錯誤處理辦法，小夥伴們加油！

閱讀全文

熱點內容

java返回this 發布：2025-10-20 08:28:16 瀏覽：1085

製作腳本網站發布：2025-10-20 08:17:34 瀏覽：1364

python中的init方法發布：2025-10-20 08:17:33 瀏覽：1048

圖案密碼什麼意思發布：2025-10-20 08:16:56 瀏覽：1224

怎麼清理微信視頻緩存發布：2025-10-20 08:12:37 瀏覽：1091

c語言編譯器怎麼看執行過程發布：2025-10-20 08:00:32 瀏覽：1444

郵箱如何填寫發信伺服器發布：2025-10-20 07:45:27 瀏覽：652

shell腳本入門案例發布：2025-10-20 07:44:45 瀏覽：547

怎麼上傳照片瀏覽上傳發布：2025-10-20 07:44:03 瀏覽：1222

python股票數據獲取發布：2025-10-20 07:39:44 瀏覽：1246

python爬蟲豆瓣250

與python爬蟲豆瓣250相關的資訊