當前位置:首頁 » 編程語言 » python爬蟲中文亂碼

python爬蟲中文亂碼

發布時間: 2022-04-21 16:45:25

⑴ 執行python腳本出現亂碼怎麼解決

執行python腳本出現亂碼的解決方法:首先把中文解碼為unicode,具體方法如:【decode('utf-8')】;然後再轉化為gbk即可,具體方法如:【encode('gbk')】。
問題:
代碼中指定了UTF-8編碼,但是在cmd命令行窗口時列印的中文仍然會亂碼。
(推薦教程:Python入門教程)
原因:
windows下中文默認的輸出編碼為gbk ,與腳本中定義的UTF-8不一樣,所以出現了解碼失敗的情況。
解決方法:
可以先把中文解碼為unicode,然後再轉化為gbk來解決這個問題。
舉例:
運行結果:

⑵ python爬蟲抓下來的網頁,中間的中文亂碼怎麼解決

對於python的中文編碼問題可以參考下面的帖子
http://python.jobbole.com/85482/

同時,對於網頁的中文亂碼,建立使用requests模塊代替urllib\urllib2
requests的content方法,對中文編碼,支持比較好,基本不會出現亂碼。
req=requests.get(url,cookies=mecookies)
print req.content

具體用法,參見下面兩個帖子,較詳細:
http://blog.csdn.net/iloveyin/article/details/21444613
http://blog.csdn.net/alpha5/article/details/24964009

⑶ 我在寫一個python的網路爬蟲,寫入記事本的內容都是亂碼如何使寫入的數據以utf8或者gb2312的碼制寫入。

我從自己一個utf8的爬蟲程序裡面摘的。

程序開頭:

#!/usr/bin/envpython
#-*-coding:utf8-*-
importurllib
importurllib2
importstring
importre
importsys
type0=sys.getfilesystemencoding()#解決中文亂碼問題


後面做抓取程序的時候全部加上decode和encode。

pos1=text.find(term.decode("utf-8").encode(type0))


在輸入到txt的時候相應的分隔符也要decode和encode:

f.write(info+'!'.decode("utf-8").encode(type0))


希望能幫到你。

⑷ python編寫爬蟲爬到的中文字元總是亂碼,r.encoding也不行

這個頁面是gb2312編碼的,不是utf-8

⑸ 為什麼python爬取的中文亂碼

編碼錯了唄,python的bytes,默認的decode參數utf-8,如果網頁不是utf-8的,你就得手動指定編碼,國內很多網頁是gbk、gb2312的

⑹ python中文顯示亂碼,已經在開頭有了coding: utf-8

亂碼原因:
因為你的文件聲明為 utf-8,並且也應該是用 utf-8 的編碼保存的源文件。但是 windows 的本地默認編碼是 cp936,也就是 gbk 編碼,所以在控制台直接列印 utf-8 的字元串當然是亂碼了。

解決方法:

py文件用記事本打開,另存為utf-8格式即可

⑺ python爬蟲抓取到的數據用網頁打開時是亂碼,怎麼解決

寫爬蟲是經常會遇到這樣的問題,這種問題很顯然是編碼問題,解決的方法其實也不難。
你可以用下面的兩個方法來解決你的編碼問題:
第一種是,通過瀏覽器打開你寫的html之後,找到瀏覽器中的文字編碼修改,將編碼改為Unicode編碼,即可修復。

第二種方法是修改你的前端代碼:在你的代碼output_html方法中,規定網頁的文字編碼即可

⑻ Python+requests 爬取網站遇到中文亂碼怎麼辦

1. 遇到的中文亂碼問題
1.1 簡單的開始
使用requests來拔取網站內容十分方便,一個最簡單的代碼段只需要2-3行代碼就行。

點擊(此處)折疊或打開

  • url='http//www.pythonscraping.com/'

  • req= requests.get(url)

  • print(req.text)

  • tree= html.fromstring(req.text)

  • print(tree.xpath("//h1[@class='title']/text()"))

  • 上面的代碼段起作用的也就3行(2,4,5)代碼就獲取到我們想要的內容。當然還要導入一系列的包,比如說requests、lxml、html等。當然由於http//www.pythonscraping.com/是英文網站,不存在中文亂碼問題。

  • 1.2 麻煩的開始

  • 本來當時的想法是寫一些基礎模塊,方便之後開發的時候調用,減少重復性工作。為了保證代碼在任何情況下都不會出現bug,所以想著用同樣的代碼爬取中文網站獲取裡面的文字

  • 修改上面代碼中的兩行代碼:

  • 點擊(此處)折疊或打開

  • url='http://sports.sina.com.cn/g/premierleague/index.shtml'

  • print(tree.xpath("//span[@class='sec_blk_title']/text()"))

  • 運行程序可以發現,在語句print(req.text)輸出的內容中,中文字體已經是亂碼了。最後的結果輸出是['?????©è§x86é?x91', '??x80?x9cx9f?x9bx9eé??']

  • 2 亂碼解決辦法

  • 2.1 試錯

  • 由於之前爬取csdn上一個網頁沒有出現亂碼問題,但是在sina體育網站上出現了亂碼,所以當時以為不是編碼問題,以為是文檔壓縮問題。因為csdn獲取的頁面header里沒有「Content-Encodings」屬性,但是sina體育獲取的頁面header有「Content-Encodings」屬性--「Content-Encoding: gzip」。




  • 總結:參考上述文獻,結果還是沒有解決問題,但是就考慮是不是方向錯了。不過這部分工作也沒有白做,很多網站返回數據都會有壓縮問題,之後的工作中也能用上。


  • 2.2 亂碼終極解決辦法

  • 後來查閱官方文檔中response-content相關內容,說明了Requests會自動解碼來自伺服器的內容。Requests會基於HTTP頭部對響應的編碼作出有根據的推測,前提是響應文檔的HTTP headers裡面沒有相關字元集說明。官方文檔還說明了,如果你創建了自己的編碼,並使用codecs模塊進行注冊,你就可以輕松地使用這個解碼器名稱作為r.encoding的值, 然後由Requests來為你處理編碼。(自己沒有使用codecs模塊,所以這里不貼代碼了,不過按官方的說法使用codecs模塊是最簡單的一種方式。)

  • 另一份官方文檔片段明確說了reponse編碼處理方式:

  • Requests遵循RFC標准,編碼使用ISO-8859-1 。

  • 只有當HTTP頭部不存在明確指定的字元集,並且Content-Type頭部欄位包含text值之時, Requests才不去猜測編碼方式。


  • 現在直接上實驗結果,在原始代碼中添加以下代碼片段:

  • 點擊(此處)折疊或打開

  • print(req.headers['content-type'])

  • print(req.encoding)

  • print(req.apparent_encoding)

  • print(requests.utils.get_encodings_from_content(page_content.text))

  • 輸出結果分別是:

  • text/html

  • ISO-8859-1#response內容的編碼

  • utf-8#response headers里設置的編碼

  • ['utf-8']#response返回的html header標簽里設置的編碼

  • 返回的內容是採用『ISO-8859-1』,所以出現了亂碼,而實際上我們應該採用『utf-8』編碼


  • 總結:當response編碼是『ISO-8859-1』,我們應該首先查找response header設置的編碼;如果此編碼不存在,查看返回的Html的header設置的編碼,代碼如下:

  • 點擊(此處)折疊或打開

  • if req.encoding=='ISO-8859-1':

  • encodings= requests.utils.get_encodings_from_content(req.text)

  • if encodings:

  • encoding= encodings[0]

  • else:

  • encoding= req.apparent_encoding

  • encode_content= req.content.decode(encoding,'replace').encode('utf-8','replace')

⑼ python爬蟲爬到的中文亂碼怎麼辦

爬到的內容,肯定是某種編碼格式(utf-8/gb2312等)的字元串。只需要對它相應的decode一下就可以了。
比如:如果網頁內容是utf-8編碼的,就:'xxx'.decode('utf-8');
如果是gb2312編碼的,就:'xxx'.decode('gb2312')

⑽ 為什麼Python寫的爬蟲有時候抓取的數據是亂碼

為什麼Python寫的爬蟲有時候抓取的數據是亂碼
寫爬蟲是經常會遇到這樣的問題,這種問題很顯然是編碼問題,解決的方法其實也不難。

你可以用下面的兩個方法來解決你的編碼問題:
第一種是,通過瀏覽器打開你寫的html之後,找到瀏覽器中的文字編碼修改,將編碼改為Unicode編碼,即可修復。

xml takes all the pain out of XML. Stephan Richter lxml是Python語言里和XML以及HTML工作的功能最豐富和最容易使用的庫

熱點內容
內置存儲卡可以拆嗎 發布:2025-05-18 04:16:35 瀏覽:335
編譯原理課時設置 發布:2025-05-18 04:13:28 瀏覽:378
linux中進入ip地址伺服器 發布:2025-05-18 04:11:21 瀏覽:612
java用什麼軟體寫 發布:2025-05-18 03:56:19 瀏覽:31
linux配置vim編譯c 發布:2025-05-18 03:55:07 瀏覽:107
砸百鬼腳本 發布:2025-05-18 03:53:34 瀏覽:942
安卓手機如何拍視頻和蘋果一樣 發布:2025-05-18 03:40:47 瀏覽:739
為什麼安卓手機連不上蘋果7熱點 發布:2025-05-18 03:40:13 瀏覽:802
網卡訪問 發布:2025-05-18 03:35:04 瀏覽:510
接收和發送伺服器地址 發布:2025-05-18 03:33:48 瀏覽:371