python抓取网页乱码

发布时间: 2022-12-22 10:28:57

1. 用python抓取编码为gb2312的网页，结果抓取的都是乱码怎样才能将它弄成正常的HTML格式

你试试下面的代码

#!/usr/bin/envpython
#-*-coding:utf8-*-

importurllib2

req=urllib2.Request("http://www..com/")
res=urllib2.urlopen(req)
html=res.read()
res.close()

html=unicode(html,"gb2312").encode("utf8")
printhtml

2. Python+requests 爬取网站遇到中文乱码怎么办

1. 遇到的中文乱码问题
1.1 简单的开始
使用requests来拔取网站内容十分方便，一个最简单的代码段只需要2-3行代码就行。

点击(此处)折叠或打开

url='http//www.pythonscraping.com/'
req= requests.get(url)
print(req.text)
tree= html.fromstring(req.text)
print(tree.xpath("//h1[@class='title']/text()"))
上面的代码段起作用的也就3行（2,4,5）代码就获取到我们想要的内容。当然还要导入一系列的包，比如说requests、lxml、html等。当然由于http//www.pythonscraping.com/是英文网站，不存在中文乱码问题。

1.2 麻烦的开始

本来当时的想法是写一些基础模块，方便之后开发的时候调用，减少重复性工作。为了保证代码在任何情况下都不会出现bug，所以想着用同样的代码爬取中文网站获取里面的文字

修改上面代码中的两行代码：

点击(此处)折叠或打开

url='http://sports.sina.com.cn/g/premierleague/index.shtml'
print(tree.xpath("//span[@class='sec_blk_title']/text()"))
运行程序可以发现，在语句print(req.text)输出的内容中，中文字体已经是乱码了。最后的结果输出是['?????©è§x86é?x91', '??x80?x9cx9f?x9bx9eé??']

2 乱码解决办法

2.1 试错

由于之前爬取csdn上一个网页没有出现乱码问题，但是在sina体育网站上出现了乱码，所以当时以为不是编码问题，以为是文档压缩问题。因为csdn获取的页面header里没有“Content-Encodings”属性，但是sina体育获取的页面header有“Content-Encodings”属性--“Content-Encoding: gzip”。

总结：参考上述文献，结果还是没有解决问题，但是就考虑是不是方向错了。不过这部分工作也没有白做，很多网站返回数据都会有压缩问题，之后的工作中也能用上。

2.2 乱码终极解决办法

后来查阅官方文档中response-content相关内容，说明了Requests会自动解码来自服务器的内容。Requests会基于HTTP头部对响应的编码作出有根据的推测，前提是响应文档的HTTP headers里面没有相关字符集说明。官方文档还说明了，如果你创建了自己的编码，并使用codecs模块进行注册，你就可以轻松地使用这个解码器名称作为r.encoding的值，然后由Requests来为你处理编码。（自己没有使用codecs模块，所以这里不贴代码了，不过按官方的说法使用codecs模块是最简单的一种方式。）

另一份官方文档片段明确说了reponse编码处理方式：

Requests遵循RFC标准，编码使用ISO-8859-1 。

只有当HTTP头部不存在明确指定的字符集，并且Content-Type头部字段包含text值之时， Requests才不去猜测编码方式。

现在直接上实验结果，在原始代码中添加以下代码片段：

点击(此处)折叠或打开

print(req.headers['content-type'])
print(req.encoding)
print(req.apparent_encoding)
print(requests.utils.get_encodings_from_content(page_content.text))
输出结果分别是：

text/html

ISO-8859-1#response内容的编码

utf-8#response headers里设置的编码

['utf-8']#response返回的html header标签里设置的编码

返回的内容是采用‘ISO-8859-1’，所以出现了乱码，而实际上我们应该采用‘utf-8’编码

总结：当response编码是‘ISO-8859-1’，我们应该首先查找response header设置的编码；如果此编码不存在，查看返回的Html的header设置的编码，代码如下：

点击(此处)折叠或打开

if req.encoding=='ISO-8859-1':
encodings= requests.utils.get_encodings_from_content(req.text)
if encodings:
encoding= encodings[0]
else:
encoding= req.apparent_encoding
encode_content= req.content.decode(encoding,'replace').encode('utf-8','replace')

3. python爬虫出现菱形问号乱码的解决方法

在windows下使用非idle的其他ide编辑器，会碰到这个问题。对抓取到的网页内容进行先解码再编码即可。

以requests为例：

r = r.content.decode('gbk').encode('utf-8')

出现编码问题时，

1.仔细分析错误的类型。

看是decode（解码）错误还是encode（转码）错误。

2.搞清自己处理的字符串是什么类型的。

一般看网页的charset，一般为gbk，gb2312或gb18030.其中包含字符的大小为gb2312 < gbk <gb18030。一般出现‘gbk’ codec can’t decode，是因为

（1）要处理的字符串本身不是gbk编码，但是你却以gbk编码去解码

比如，字符串本身是utf-8的，但是你却用gbk去解码utf-8的字符串，所以结果不用说，则必然出错。

（2）处理的字符的确是gbk的，但是其中夹杂的部分特殊字符，是gbk编码中所没有的

如果有些特殊字符是GB18030中有的，但是是gbk中没有的。

则用gbk去解码，去所不支持的字符，也比如会出错。

所以，此种情况，可以尝试用和当前编码（gbk）所兼容的但所包含字符更多的编码（gb18030）去解码，或许就可以了。

3.然后换用这种的字符编码去编码或解码。

详情链接:https://www.crifan.com/summary_python_unicodedecode_error_possible_reasons_and_solutions/

4. python 抓取的网页链接，链接中的中文乱码问题

应该是shell的编码和listinfo编码不一样导致的，部分正常，部分乱码有可能是因为两种编码部分字符恰好一样。

试试

importsys
printi[i].encode(sys.getdefaultencoding())

5. python response 中文乱码问题

获得response.text有如下类似的乱码：

解决方法有两种：
第一种：

apparent_encoding方法是requests库利用chardet对字节流编码进行了猜测。一般来说使用这种方法，大部分网页的中文乱码都会恢复。如果还是不行，那就试试第二种方法。
第二种：

从网页格式中获得网页内容的编码方式（一般content-type字段会出现在HTML的header的头几行）。
如果直接拿来用，会报错

所以需要给decode加上第二个参数，decode([encoding], [errors='strict'])，第二个参数设置为ignore，则会忽略非法字符。

这样就能获得正确的中文内容了。

练习网址 https://news.mydrivers.com/1/628/628585.htm

6. python爬虫抓下来的网页，中间的中文乱码怎么解决

对于python的中文编码问题可以参考下面的帖子
http://python.jobbole.com/85482/

同时，对于网页的中文乱码，建立使用requests模块代替urllib\urllib2
requests的content方法，对中文编码，支持比较好，基本不会出现乱码。
req=requests.get(url,cookies=mecookies)
print req.content

具体用法，参见下面两个帖子，较详细：
http://blog.csdn.net/iloveyin/article/details/21444613
http://blog.csdn.net/alpha5/article/details/24964009

7. 求Python大佬解决爬虫乱码

一般乱码问题有可能是以下几种原因导致：
1、编解码方式不对（GKB、UTF8等等，或是干脆用到的编码不支持爬到的文字内容）
2、加解密问题，现在很多平台都有加解密的机制，没有正确方式解密的话，也会出现乱码
3、其他问题，建议具体问题具体分析
可以根据实际的情况具体分析~

8. PYTHON获取网页源码乱码，怎么办

text 是系统自行解码，部分网页会不对。

content指定解码，你的网页是utf-8的，对应解码就可以了

阅读全文

热点内容

随机启动脚本发布：2025-07-05 16:10:30 浏览：512

微博数据库设计发布：2025-07-05 15:30:55 浏览：14

linux485 发布：2025-07-05 14:38:28 浏览：296

php用的软件发布：2025-07-05 14:06:22 浏览：747

没有权限访问计算机发布：2025-07-05 13:29:11 浏览：421

javaweb开发教程视频教程发布：2025-07-05 13:24:41 浏览：671

康师傅控流脚本破解发布：2025-07-05 13:17:27 浏览：229

java的开发流程发布：2025-07-05 12:45:11 浏览：672

怎么看内存卡配置发布：2025-07-05 12:29:19 浏览：273

访问学者英文个人简历发布：2025-07-05 12:29:17 浏览：823

python抓取网页乱码

与python抓取网页乱码相关的资讯