当前位置:首页 » 编程语言 » python3爬虫教程

python3爬虫教程

发布时间: 2025-08-13 04:08:06

python3爬虫教程-Scapy详解

安装Scapy

可以通过命令行或在PyCharm中进行安装。在命令行中输入`pip install scapy`完成安装;在PyCharm中,选择`File->Setting->Python Interpreter`,然后在弹出的窗口中输入`pip install scapy`并执行。

创建爬虫工程

创建工程后,根目录下将自动生成`helloworld`文件夹。进入该文件夹。

编写Item类

Item用于存储爬取的数据,如爬取电影资源时,需要包含电影名称、年代、评分等信息。

设计Pipeline

Pipeline用于清理HTML数据,将所需信息存储至数据库、文件等介质,爬虫执行完毕后自动调用`process_item`方法。

配置Pipeline

可重写四个方法,实现特定功能。可根据需求定义多个Pipeline,并在`setting.py`中配置,权重越小的Pipeline优先级越高。

设置`setting.py`参数

解释几个重要参数,如是否启用本地缓存,是否启用随机User-Agent,配置User-Agent等。

下载器中间件

使用下载器中间件时需在`settings.py`中设置`DOWNLOADER_MIDDLEWARES`字典,并设置数字优先级,数字越小的中间件优先级越高。

自定义中间件

自定义中间件需实现`process_request`、`process_response`和`process_exception`三个重要函数。

创建爬虫

使用命令`cd`进入项目目录,然后使用`scrapy`命令创建爬虫文件。`spiders`目录将生成新的爬虫文件。

配置爬虫类`scrapy.Spider`

必须定义爬虫名称、允许爬取的域名列表以及开始爬取的URL列表。自定义回调函数以处理返回的数据,还需设置日志处理和资源释放函数。

爬虫相关命令

爬虫教程至此结束,后续将详细讲解实例操作。敬请期待!

② IDLE+Shell+3.9.7怎样爬虫

这是一个适用于小白的Python爬虫免费教学分享,只有7节,让零基础的你初步了解爬虫,跟着课程内容能自己爬取资源。看着文章,打开电脑动手实践,平均45分钟就能学完一节,如果你愿意,今天内你就可以迈入爬虫的大门啦~

话不多说,正式开始我们的第一节课《Python环境的安装》吧~

啦啦啦开课啦,看黑板,都看黑板~

1. 安装Anaconda

在我们的教学中,我们使用的版本是Python3,至于为什么要选Python3,哼哼!

工欲善其事,必先利其器,在学习爬虫之前,你得先搭建自己的编程环境。废话不多说,按照下面的方法搭建吧:

1.1 下载Anaconda

打开Anaconda网页后,看到这样的页面:

根据你的电脑系统,选择相应版本的 Anaconda(记住选择 Python 3.6 的版本),Mac OS 用户选择 Mac 版本即可,如果不想麻烦,请选择 Graphical Installer。

1.2 安装 Anaconda

选择默认位置安装即可:

两个选择框都勾上,安装:

1.3 在开始菜单中查看 Anaconda

Anaconda 装好之后,可以在开始菜单查看。可以看到包含了如下图所示的组件:

之后我们会用到的主要是:

Anaconda Prompt:Anaconda 自带的命令行

Jupyter Notebook:一个简单易用、适合入门的 IDE

2. 安装常用包

2.1 安装 Python 包 requests

打开 cmd 终端,输入 pip install requests,若安装不成功,可以尝试:conda install requests

出现 Successfully installed,即表示成功安装。若需检测,先输入 Python,再输入 import requests,未出现报错,表示安装成功,可以正常使用。注:操作完记得退出:quit()。

如果安装时显示 conda 不是内部或外部命令,用下面的方式安装(如未报错则不必用下面的方法)


  • 在开始菜单打开 Anaconda Prompt:

  • 在 Anaconda Prompt 输入 conda install requests:

  • 2.2 安装 Python 包 lxml

    同样在终端输入: conda install lxml,出现 Successfully installed,即表示成功安装,若不能成功安装,请尝试如下方法。

  • 前往 http://www.lfd.uci.e/~gohlke/pythonlibs/,手动下载需要安装的第三方包(注意对应你的python版本是32位还是64位)。

  • 在下载下来的文件所在目录按住shift并点击鼠标右键,选择在此处打开Powershell窗口,在此命令行中使用 pip install + 下载下来文件全名 ,即可完成安装。

  • 所以你该知道如何安装 Python 包了吧,通用方法是,在终端输入:conda install + 包名称 或者 pip install + 包名称。出现特殊的不能安装的情况,可以去下载之后进行安装。

    3. Jupyter Notebook

    3.1 开启Jupyter Notebook

    在开始菜单打开 Jupyter Notebook:

    Jupyter 将会在网页中自动打开:

    3.2 Jupyter Notebook 界面

    Files:你当前工作环境下的所有项目(代码)、默认存储的文件都在这里:

    Runing:你目前正在运行的项目都在这里:

    3.3 新建一个文档,开始写代码

    依次点击右上方 :New > Python 3,即新建了一个 Ipython 文件,如图:

    点击上方 Utitled 可以更改文档的名称,下面的空间就可以写代码啦:

    3.4 Jupyter Notebook 功能简介

    4. 创建第一个实例:爬取网络首页

    仅用四行代码,我们就可以把网络首页的内容下载下来:

    1.导入 requests 库;2.下载网络首页内容;3.更改编码;4.打印内容

    具体爬虫原理及代码的内涵,在下一节的案例中详细讲解~

    好了,这节课就到这里

③ 【Python3网络爬虫开发实战】 1.2.4-GeckoDriver的安装

GeckoDriver的安装方法如下

  1. 确保Firefox浏览器已安装

    • 在进行GeckoDriver安装之前,请确保你的计算机上已经安装了Firefox浏览器,并且能够正常运行。
  2. 下载GeckoDriver

    • 前往GitHub下载与你的操作系统及位数相对应的GeckoDriver版本。例如,对于Windows 64位用户,应下载geckodriverv0.18.0win64.zip。
  3. 配置GeckoDriver

    • Windows环境:将下载的geckodriver.exe文件直接拖放到Python的Scripts目录中,或者将其配置到系统的环境变量中。配置环境变量的方法可参照相关教程。
    • Linux与Mac环境:将下载的GeckoDriver可执行文件配置到环境变量中,或者将其移动至环境变量所包含的目录中。
  4. 测试GeckoDriver安装

    • 配置完成后,在命令行中执行geckodriver命令进行测试。如果控制台显示相关信息,说明环境变量配置正确,GeckoDriver已成功安装。
  5. Python代码验证

    • 使用特定的Python代码进行验证。如果代码能够在命令行中打开空白的Firefox浏览器,则证明所有配置均正确。反之,请检查每一步的配置是否正确执行。
  6. 注意事项

    • 若使用的Firefox浏览器版本较旧,可能不支持无界面模式。此时,可以考虑安装无界面浏览器PhantomJS,以实现后台运行。但请注意,随着技术的发展,PhantomJS可能已不再维护或更新,因此在实际应用中需根据具体情况选择合适的解决方案。

通过以上步骤,你可以成功安装GeckoDriver,并实现Selenium与Firefox浏览器的对接,从而进行网页抓取等操作。

热点内容
plc编程原理 发布:2025-08-13 09:36:59 浏览:2
我的世界服务器前缀 发布:2025-08-13 09:24:56 浏览:546
安卓手机地震预警在哪里打开 发布:2025-08-13 08:30:37 浏览:756
java发html邮件 发布:2025-08-13 08:25:14 浏览:127
压缩感知稀疏 发布:2025-08-13 08:24:39 浏览:199
安卓钉钉怎么关闭声音 发布:2025-08-13 08:17:43 浏览:529
预算法优点 发布:2025-08-13 08:13:35 浏览:996
服务器台式电脑配置要求 发布:2025-08-13 08:08:23 浏览:998
最短作业优先算法 发布:2025-08-13 08:07:00 浏览:234
linux查看arp 发布:2025-08-13 07:53:30 浏览:479