Python爬取JSON

发布时间: 2023-05-27 07:26:51

A. python爬虫如何写

Python的爬虫库其实很多，像常见的urllib，requests，bs4，lxml等，初始入门爬虫的话，可以学习一下requests和bs4(BeautifulSoup)这2个库，比较简单，也易学习，requests用于请求页面，BeautifulSoup用于解析页面，下面我以这2个库为基础，简单介绍一下Python如何爬取网页静态数据和网页动态数据，实验环境win10+python3.6+pycharm5.0，主要内容如下：

Python爬取网页静态数据

这个就很简单，直接根据网址请求页面就行，这里以爬取糗事网络上的内容为例：

1.这里假设我们要爬取的文本内容如下，主要包括昵称、内容、好笑数和评论数这4个字段：

打开网页源码，对应网页结构如下，很简单，所有字段内容都可以直接找到：

2.针对以上网页结构，我们就可以编写相关代码来爬取网页数据了，很简单，先根据url地址，利用requests请求页面，然后再利用BeautifulSoup解析数据（根据标签和属性定位）就行，如下：

程序运行截图如下，已经成功爬取到数据：

Python爬取网页动态数据

很多种情况下，网页数据都是动态加载的，直接爬取网页是提取不到任何数据的，这时就需要抓包分析，找到动态加载的数据，一般情况下就是一个json文件（当然，也敬链誉可能是其他类型的文件，像xml等），然后请求解析这个json文件，就能获取到我们需要的数据，这里以爬取人人贷上面的散标数据为例：

1.这里假设我们爬取的数据如下，主要包括年亮段利率，借款标题，期限，金额，进度这5个字段：

2.按F12调出开发者工具，依次点击“Network”->“XHR”，F5刷新页面，就可以找到动态加载的json文件，具体信息如下：

3.接着，针对以上抓包分析，我们就可以编写相关代码来爬取数据了，基本思路和上面的静态网页差不多，先利用requests请求json，然后再利用python自带的json包解析数据就行，如下：

程序运行截图如下，已经成功获取到数据：

至此，我们就完成了利用python来爬取网页数据。总的来说，整个过程很简单，requests和BeautifulSoup对于初学者来说，非常容易学习，也易掌握，可以学习使用一下，后期熟悉后，可以学习一下scrapy爬虫框架，可以明显提高开发效率，非常不错，当然，网页中要是有加密、验证码等，这个就需要自己好好琢磨，研究对策了，网上也有相关教程和资料，感兴趣的话，可以搜一下，希望以上分唤陆享的内容能对你上有所帮助吧，也欢迎大家评论、留言。

B. 怎么使用python提取json文件中的字段

例json文件，名字test.json，

{

"verson":"1.4.2",
"author":"johanna",
"type":"1"

}

python编码:

首先读取json文件内容，利用json.loads()转化为dict类型，遍历每一对key,val


importjson
importos

try:
	t_str=open('./test.json','r').read()
	t_json=json.loads(t_str)
	
	fork,vint_json.items():
		printk,v
		
exceptException,e:
	printstr(e)

C. 如何用python爬取网页中隐藏的div内容

你说的隐藏的div内容，应该是动态加载的数据吧，不在网页源码中显示，只在加载网页时才请求数据进行显示，一般情况下，这种数据都保存在一个json文件中，只要抓包分析出这个json文件的url地址，然后再根据json文件结构进行解析，很快就能获取到动态加载的div数据，下面我以爬取人人贷上面的散标数据为例，简单介绍一下python如何爬芦枝取div动态加载的数据，实验环境win10+python3.6+pycharm5.0，主要步骤如下：

1.首先，打开散标数族咐据，如下，爬取的信息主要包括年利率、借款标题、期限、金额和进度这5个字段信息：

右键对应元素进行检查，可以看出所有的数据嵌套在div标签中，如下：

打开网页源码，我们按Ctrl+F查找对应的数据，会发现所查找的数据都未在网页源码中，如下，即数据都是动态加载，所以直接解析原网页是找不到div嵌套的数据的：

2.接着，我们按F12调出开发者工具，依次点击“Network”->“XHR”，F5刷新页面，就会看到动态加载的json文件，查看这个文件，内容如下，左边为json文件的url地址，右边就是我们需要爬取的div数据：

3.最后对应上面的json文件，我们就可以直接获取并解析json了，这里主要用到requests和json这2个模块，其中requests用于根据url地址获取json文件，json用于解析json文件，提取出我们所需要的信息，即div动态加载的数据，测试代码如下，非常简单：

运行程序，截图如下，已经成功爬取到div加载的数据：

至此，我们就完成了利用python爬取div动态加载的数据。总的来说，整个过程非常简单，最主要的陪穗敏还是抓包分析，只要你有一定的爬虫基础，熟悉一下上面的代码，多调试几遍程序，很快就能掌握的，当然，你也可以使用selenium进行爬取，直接解析就行，网上也有相关教程和资料可供参考，非常丰富，希望以上分享的内容能对你有所帮助吧，也欢迎大家评论、留言。

D. python怎么读取json文件内容

JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式。它基于ECMAScript的一个子集。 JSON采用完全独立于语言的文本格式，但是也使用了类似于C语言家族的习惯(包括C、C++、Java、JavaScript、Perl、Python等)。这些特性使JSON成为理想的数据交换语言。易于人阅读和编写，同时也易于机器解析和生成(一般用于提升网络传输速率)。

JSON在python中分别由list和dict组成。

这是用于序列化的两个模块：

json: 用于字符串和python数据类型间进行转换
pickle：用于python特有的类型和python的数据类型间进行转换

Json模块提供了四个功能：mps、mp、loads、load

pickle模块提供了四个功能：mps、mp、loads、load

json mps把数据类型转换成字符串 mp把数据类型转换成字符串并存储在文件中 loads把字符串转换成数据类型 load把文件打开从字符串转换成数据类型

json是可以在不同语言之间交换数据的，而pickle只在python之间使用。json只能序列化最基本的数据类型，josn只能把常用的数据类型序列化（列表、字典、列表、字符串、数字、），比如日期格式、类对象！josn就不行了。而pickle可以序列化所有的数据类型，包括类，函数都可以序列化。

事例：

mps：将python中的字典转换为字符串

E. 如何用python读取json里面的值啊

1、首先需要在桌面新建‘json.txt’文件，内容为jsonline格式。

F. 如何用python读取json文件里指定的数据

importjson

withopen('who.json','r')asf:
data=json.load(f)
dependencies=data['dependencies']
fork,vindependencies.iteritems():
print(f'{k}@{v}')

G. 如何在scrapy框架下用python爬取json文件

生成Request的时候与一般的网页是相同的，提交Request后scrapy就会下载相应的网页生成Response，这时只用解析response.body按照解析json的方法就可以提取数据了。代码示例如下（以京东为例，其中的parse_phone_price和parse_commnets是通过json提取的，省略部分代码）：

# -*- coding: utf-8 -*-

from scrapy.spiders import Spider, CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
from jdcom.items import JdPhoneCommentItem, JdPhoneItem
from scrapy import Request
from datetime import datetime
import json
import logging
import re

logger = logging.getLogger(__name__)

class JdPhoneSpider(CrawlSpider):
    name = "jdPhoneSpider"
    start_urls = ["http://list.jd.com/list.html?cat=9987,653,655"]

    rules = (
        Rule(
            LinkExtractor(allow=r"list\.html\?cat\=9987,653,655\&page\=\d+\&trans\=1\&JL\=6_0_0"),
            callback="parse_phone_url",
            follow=True,
        ),
    )

    def parse_phone_url(self, response):
        hrefs = response.xpath("//div[@id='plist']/ul/li/div/div[@class='p-name']/a/@href").extract()
        phoneIDs = []
        for href in hrefs:
            phoneID = href[14:-5]
            phoneIDs.append(phoneID)
            commentsUrl = "http://sclub.jd.com/proctpage/p-%s-s-0-t-3-p-0.html" % phoneID
  返庆租          yield Request(commentsUrl, callback=self.parse_commnets)

    def parse_phone_price(self, response):
        phoneID = response.meta['phoneID']
        meta = response.meta
        priceStr = response.body.decode("gbk", "ignore")
        priceJson = json.loads(priceStr)
        price = float(priceJson[0]["p"])
        meta['price'] = price
      差知  phoneUrl = "http://item.jd.com/%s.html" % phoneID
        yield Request(phoneUrl, callback=self.parse_phone_info, meta=meta)

    def parse_phone_info(self, response):
        pass

    def parse_commnets(self, response):

        commentsItem = JdPhoneCommentItem()
        commentsStr = response.body.decode("gbk", "ignore")
        commentsJson = json.loads(commentsStr)
        comments = commentsJson['comments']

        for comment in comments:
            commentsItem['commentId'] = comment['id']
            漏兆commentsItem['guid'] = comment['guid']
            commentsItem['content'] = comment['content']
            commentsItem['referenceId'] = comment['referenceId']
            # 2016-09-19 13:52:49  %Y-%m-%d %H:%M:%S
            datetime.strptime(comment['referenceTime'], "%Y-%m-%d %H:%M:%S")
            commentsItem['referenceTime'] = datetime.strptime(comment['referenceTime'], "%Y-%m-%d %H:%M:%S")

            commentsItem['referenceName'] = comment['referenceName']
            commentsItem['userProvince'] = comment['userProvince']
            # commentsItem['userRegisterTime'] = datetime.strptime(comment['userRegisterTime'], "%Y-%m-%d %H:%M:%S")
            commentsItem['userRegisterTime'] = comment.get('userRegisterTime')
            commentsItem['nickname'] = comment['nickname']
            commentsItem['userLevelName'] = comment['userLevelName']
            commentsItem['userClientShow'] = comment['userClientShow']
            commentsItem['proctColor'] = comment['proctColor']
            # commentsItem['proctSize'] = comment['proctSize']
            commentsItem['proctSize'] = comment.get("proctSize")
            commentsItem['afterDays'] = int(comment['days'])
            images = comment.get("images")
            images_urls = ""
            if images:
                for image in images:
                    images_urls = image["imgUrl"] + ";"
            commentsItem['imagesUrl'] = images_urls
        yield commentsItem

        commentCount = commentsJson["proctCommentSummary"]["commentCount"]
        goodCommentsCount = commentsJson["proctCommentSummary"]["goodCount"]
        goodCommentsRate = commentsJson["proctCommentSummary"]["goodRate"]
        generalCommentsCount = commentsJson["proctCommentSummary"]["generalCount"]
        generalCommentsRate = commentsJson["proctCommentSummary"]["generalRate"]
        poorCommentsCount = commentsJson["proctCommentSummary"]["poorCount"]
        poorCommentsRate = commentsJson["proctCommentSummary"]["poorRate"]
        phoneID = commentsJson["proctCommentSummary"]["proctId"]

        priceUrl = "http://p.3.cn/prices/mgets?skuIds=J_%s" % phoneID
        meta = {
            "phoneID": phoneID,
            "commentCount": commentCount,
            "goodCommentsCount": goodCommentsCount,
            "goodCommentsRate": goodCommentsRate,
            "generalCommentsCount": generalCommentsCount,
            "generalCommentsRate": generalCommentsRate,
            "poorCommentsCount": poorCommentsCount,
            "poorCommentsRate": poorCommentsRate,
        }
        yield Request(priceUrl, callback=self.parse_phone_price, meta=meta)

        pageNum = commentCount / 10 + 1
        for i in range(pageNum):
            commentsUrl = "http://sclub.jd.com/proctpage/p-%s-s-0-t-3-p-%d.html" % (phoneID, i)
            yield Request(commentsUrl, callback=self.parse_commnets)

H. 如何用python爬取网站数据

这里简单介绍一下吧，以抓取网站静态、动态2种数据为慧返拍例，实验环境win10+python3.6+pycharm5.0，主要内容如下：

抓取网站静态数据（数据在网页源码中）：以糗事网络网站数据为例

1.这里假设我们抓取的数据如下，主要包括用户昵称、内容、好笑数和评论数这4个字段，如下：

对应的网页源码如下，包含我们所需要的数据：

2.对应网页结构，主要代码如下，很简单，主要用到requests+BeautifulSoup，其中requests用于请求页面，BeautifulSoup用于解析页面：

程序运行截图如下，已经成功爬取到数据：

抓取网站动态数据（数据不在网页源码中，json等文件中）：以人人贷网站数据为例

1.这里假设我们爬取的是债券数据，主要包括年利率世型、借款标题、期限、金额和进度这5个字段信息，截图如下：

打开网页源码中，可以发现数据不在网页源码中，按F12抓包分析时，才发现在一个json文件中，如下：

2.获取到json文件的url后，我们就可以爬取对应数据了，这里使用的包与上面类似，因为是json文件，所以还用了json这个包（解析json），主要内容如下：

程序运行截图如下，前羡已经成功抓取到数据：

至此，这里就介绍完了这2种数据的抓取，包括静态数据和动态数据。总的来说，这2个示例不难，都是入门级别的爬虫，网页结构也比较简单，最重要的还是要会进行抓包分析，对页面进行分析提取，后期熟悉后，可以借助scrapy这个框架进行数据的爬取，可以更方便一些，效率更高，当然，如果爬取的页面比较复杂，像验证码、加密等，这时候就需要认真分析了，网上也有一些教程可供参考，感兴趣的可以搜一下，希望以上分享的内容能对你有所帮助吧。

I. Python爬虫（七）数据处理方法之JSON

JSON 指的是 JavaScript 对象表示法（JavaScript Object Notation），是轻量级的文本数据交换格式，且具有自我描述性，更易理解。
JSON看起来像python类型（列表，字典）的字符串。

在之前的文章中，我们说到了怎么用response的方法，获取到网页正确解码后的字符串。如果还有不懂的，可以先阅读 Python爬虫（三）Requests库。接下来以有道翻译为例子，说说怎么通过网页解码后的字符串，提取到翻译结果。

再结合上述有道翻译的例子，得到字典类型的返回结果，并提取出来翻译结果。

将上述例子的dict_json换成str字符串，再写入文本中。

执行完上述的程序，会得到一个fanyi.txt的文件，其结果如下：{"type": "ZH_CN2EN", "errorCode": 0, "elapsedTime": 1, "translateResult": [[{"src": "\u4eba\u751f\u82e6\u77ed\uff0c\u6211\u7528python", "tgt": "Life is too short, I use python"}]]}。这样子的一份文档，中文部分显示的是二进制，且格式非常不利于阅读，这并不是我们想要的结果。好在json.mps()为我们提供的两个方法，以帮助我们更好阅读文档。
1.ensure_ascii，能够让中文显示成中文；
2.indent，能够让下一行在第一行的基础上空格。
其用法如下：

J. 如何使用python提取json中指定字段的数据

首先你获取的json数据是字符串a的话，就
import json
d = json.loads(a)
x =d.get("想要的字段")
x就是你要的数据

阅读全文

热点内容

php判断字符是否相等发布：2025-07-13 19:17:21 浏览：614

电脑直播唱歌电脑需要什么配置发布：2025-07-13 19:03:45 浏览：88

config连接数据库发布：2025-07-13 19:02:24 浏览：953

bt文件解压发布：2025-07-13 19:02:16 浏览：744

比较便宜的云服务器发布：2025-07-13 18:29:59 浏览：406

切换ftp 发布：2025-07-13 18:29:07 浏览：738

锐龙哪个配置最高画质发布：2025-07-13 18:22:34 浏览：196

压缩机工作原理图发布：2025-07-13 18:10:15 浏览：39

黑暗追求者安卓怎么联机发布：2025-07-13 18:10:07 浏览：617

北大保安自学编程发布：2025-07-13 18:09:58 浏览：858

Python爬取JSON

与Python爬取JSON相关的资讯