当前位置:首页 » 编程语言 » python网页乱码

python网页乱码

发布时间: 2022-05-16 22:31:51

python爬虫抓取到的数据用网页打开时是乱码,怎么解决

有多种情况,一种是html压缩了,网上查一下Gzip
第二种是你的编码部队,看html文件的head改一下就可以了

㈡ python,抓取的网页为二进制乱码,怎么解决

看看你的请求头Accept-Encoding是不是设置了gzip,deflate

这样的话,返回的response是需要解压缩的


#Content-Encoding:gzip
#Content-Encoding:deflate
if("Content-Encoding"inrespInfo):
if("gzip"==respInfo['Content-Encoding']):
respHtml=zlib.decompress(respHtml,16+zlib.MAX_WBITS);
elif("deflate"==respInfo['Content-Encoding']):
respHtml=zlib.decompress(respHtml,-zlib.MAX_WBITS);

㈢ 用python抓取的网页保存后为什么乱码

从你给的代码来是Python2。我下面给一个基于Python3的代码,可以参考一下:

romurllib.requestimporturlopen;
fromurllib.parseimportquote;
rawtext=urlopen('http://www.ccnu.e.cn',timeout=15).read();
print(rawtext)
rawtext=rawtext.decode('gbk')
print(rawtext)
f=open('ccnu.txt','w',encoding='utf8');
f.write(rawtext)

大概的原理是,在Python3下面,抓取到的页面默认是byte类型的(通过第4行输出的结果就可以看出来),我们需要根据网页的实际编码进行处理。本例中给的网页使用的是gb2312。所以,我要先以gbk的格式进行解码(gbk包含了gb2312,能够表示更多的汉语字符),解码后实际上得到的就是unicode码了,由于我的控制台编码设置的是utf8,在打印时系统会自动将字符串从unicode转为utf8,所以第6行控制台打印结果正常;第7行写入文件时也要指定文件的编码格式,我这里选择的是utf8,当然用gbk也是一切正常的,因为这个编码设置的是保存文件的编码,而不是原来那个网页内容的编码了。字符串编码和文件编码不是一回事。打开ccnu.txt发现无乱码。

Python2的代码我不熟。

建议你也在代码中添加print 看控制输出是否正常。如果控制台输出正常,则有可能是在保存页面文件时,没有正确指定内容字符串的encode格式。或者把所有gb2312换为gbk再试试。

反正Python2下面极容易出现汉字乱码,如果能理解编码encode和解码decode的含义,了解Python2的字符串处理过程,就可以避免这些问题。

㈣ python爬虫抓下来的网页,中间的中文乱码怎么解决

对于python的中文编码问题可以参考下面的帖子
http : //python .jobbole. com/85482/
对于网页的中文乱码,建立使用requests模块代替urllib\urllib2
requests的content方法,对中文编码,支持比较好,基本不会出现乱码。
req=requests.get(url,cookies=mecookies)
print req.content
具体用法,参见下面两个帖子,较详细:
http :// blog.csdn . net/iloveyin/article/details/21444613
http : //blog .csdn . net/alpha5/article/details/24964009

㈤ PYTHON获取网页源码乱码,怎么办

text 是系统自行解码,部分网页会不对。

content指定解码,你的网页是utf-8的,对应解码就可以了

㈥ python3爬虫抓取网页乱码怎么解决

Python写程序原则是所有进来的字符串(读文件,爬网页),一进来就decode,处理完之后在要输出的地方在encode。题主读入(read)和输出(print)在一行里,要在win下面想不出错就这么写 print response.decode('utf-8').encode('gbk')

热点内容
怎么进别人的服务器 发布:2025-05-14 22:45:55 浏览:772
用编程写音乐 发布:2025-05-14 22:45:08 浏览:782
如何识别电脑的网络配置 发布:2025-05-14 22:38:46 浏览:847
pipforpython3 发布:2025-05-14 22:38:34 浏览:350
如何把迷你世界的服务器搞崩 发布:2025-05-14 22:37:15 浏览:94
如何让安卓卡死机 发布:2025-05-14 22:36:27 浏览:634
wemall微商城源码 发布:2025-05-14 22:15:20 浏览:804
隆地优选交易密码是什么 发布:2025-05-14 21:53:23 浏览:96
强酸强碱存储柜 发布:2025-05-14 21:45:16 浏览:565
车辆参数配置包括什么 发布:2025-05-14 21:31:03 浏览:164