python3爬虫教程
① python3爬虫教程-Scapy详解
安装Scapy
可以通过命令行或在PyCharm中进行安装。在命令行中输入`pip install scapy`完成安装;在PyCharm中,选择`File->Setting->Python Interpreter`,然后在弹出的窗口中输入`pip install scapy`并执行。
创建爬虫工程
创建工程后,根目录下将自动生成`helloworld`文件夹。进入该文件夹。
编写Item类
Item用于存储爬取的数据,如爬取电影资源时,需要包含电影名称、年代、评分等信息。
设计Pipeline
Pipeline用于清理HTML数据,将所需信息存储至数据库、文件等介质,爬虫执行完毕后自动调用`process_item`方法。
配置Pipeline
可重写四个方法,实现特定功能。可根据需求定义多个Pipeline,并在`setting.py`中配置,权重越小的Pipeline优先级越高。
设置`setting.py`参数
解释几个重要参数,如是否启用本地缓存,是否启用随机User-Agent,配置User-Agent等。
下载器中间件
使用下载器中间件时需在`settings.py`中设置`DOWNLOADER_MIDDLEWARES`字典,并设置数字优先级,数字越小的中间件优先级越高。
自定义中间件
自定义中间件需实现`process_request`、`process_response`和`process_exception`三个重要函数。
创建爬虫
使用命令`cd`进入项目目录,然后使用`scrapy`命令创建爬虫文件。`spiders`目录将生成新的爬虫文件。
配置爬虫类`scrapy.Spider`
必须定义爬虫名称、允许爬取的域名列表以及开始爬取的URL列表。自定义回调函数以处理返回的数据,还需设置日志处理和资源释放函数。
爬虫相关命令
爬虫教程至此结束,后续将详细讲解实例操作。敬请期待!
② IDLE+Shell+3.9.7怎样爬虫
这是一个适用于小白的Python爬虫免费教学分享,只有7节,让零基础的你初步了解爬虫,跟着课程内容能自己爬取资源。看着文章,打开电脑动手实践,平均45分钟就能学完一节,如果你愿意,今天内你就可以迈入爬虫的大门啦~
话不多说,正式开始我们的第一节课《Python环境的安装》吧~
啦啦啦开课啦,看黑板,都看黑板~
1. 安装Anaconda
在我们的教学中,我们使用的版本是Python3,至于为什么要选Python3,哼哼!
工欲善其事,必先利其器,在学习爬虫之前,你得先搭建自己的编程环境。废话不多说,按照下面的方法搭建吧:
1.1 下载Anaconda
打开Anaconda网页后,看到这样的页面:
根据你的电脑系统,选择相应版本的 Anaconda(记住选择 Python 3.6 的版本),Mac OS 用户选择 Mac 版本即可,如果不想麻烦,请选择 Graphical Installer。
1.2 安装 Anaconda
选择默认位置安装即可:
两个选择框都勾上,安装:
1.3 在开始菜单中查看 Anaconda
Anaconda 装好之后,可以在开始菜单查看。可以看到包含了如下图所示的组件:
之后我们会用到的主要是:
Anaconda Prompt:Anaconda 自带的命令行
Jupyter Notebook:一个简单易用、适合入门的 IDE
2. 安装常用包
2.1 安装 Python 包 requests
打开 cmd 终端,输入 pip install requests,若安装不成功,可以尝试:conda install requests
出现 Successfully installed,即表示成功安装。若需检测,先输入 Python,再输入 import requests,未出现报错,表示安装成功,可以正常使用。注:操作完记得退出:quit()。
如果安装时显示 conda 不是内部或外部命令,用下面的方式安装(如未报错则不必用下面的方法)
在开始菜单打开 Anaconda Prompt:
在 Anaconda Prompt 输入 conda install requests:
前往 http://www.lfd.uci.e/~gohlke/pythonlibs/,手动下载需要安装的第三方包(注意对应你的python版本是32位还是64位)。
在下载下来的文件所在目录按住shift并点击鼠标右键,选择在此处打开Powershell窗口,在此命令行中使用 pip install + 下载下来文件全名 ,即可完成安装。
2.2 安装 Python 包 lxml
同样在终端输入: conda install lxml,出现 Successfully installed,即表示成功安装,若不能成功安装,请尝试如下方法。
所以你该知道如何安装 Python 包了吧,通用方法是,在终端输入:conda install + 包名称 或者 pip install + 包名称。出现特殊的不能安装的情况,可以去下载之后进行安装。
3. Jupyter Notebook
3.1 开启Jupyter Notebook
在开始菜单打开 Jupyter Notebook:
Jupyter 将会在网页中自动打开:
3.2 Jupyter Notebook 界面
Files:你当前工作环境下的所有项目(代码)、默认存储的文件都在这里:
Runing:你目前正在运行的项目都在这里:
3.3 新建一个文档,开始写代码
依次点击右上方 :New > Python 3,即新建了一个 Ipython 文件,如图:
点击上方 Utitled 可以更改文档的名称,下面的空间就可以写代码啦:
3.4 Jupyter Notebook 功能简介
4. 创建第一个实例:爬取网络首页
仅用四行代码,我们就可以把网络首页的内容下载下来:
1.导入 requests 库;2.下载网络首页内容;3.更改编码;4.打印内容
具体爬虫原理及代码的内涵,在下一节的案例中详细讲解~
好了,这节课就到这里
③ 【Python3网络爬虫开发实战】 1.2.4-GeckoDriver的安装
GeckoDriver的安装方法如下:
确保Firefox浏览器已安装:
- 在进行GeckoDriver安装之前,请确保你的计算机上已经安装了Firefox浏览器,并且能够正常运行。
下载GeckoDriver:
- 前往GitHub下载与你的操作系统及位数相对应的GeckoDriver版本。例如,对于Windows 64位用户,应下载geckodriverv0.18.0win64.zip。
配置GeckoDriver:
- Windows环境:将下载的geckodriver.exe文件直接拖放到Python的Scripts目录中,或者将其配置到系统的环境变量中。配置环境变量的方法可参照相关教程。
- Linux与Mac环境:将下载的GeckoDriver可执行文件配置到环境变量中,或者将其移动至环境变量所包含的目录中。
测试GeckoDriver安装:
- 配置完成后,在命令行中执行geckodriver命令进行测试。如果控制台显示相关信息,说明环境变量配置正确,GeckoDriver已成功安装。
Python代码验证:
- 使用特定的Python代码进行验证。如果代码能够在命令行中打开空白的Firefox浏览器,则证明所有配置均正确。反之,请检查每一步的配置是否正确执行。
注意事项:
- 若使用的Firefox浏览器版本较旧,可能不支持无界面模式。此时,可以考虑安装无界面浏览器PhantomJS,以实现后台运行。但请注意,随着技术的发展,PhantomJS可能已不再维护或更新,因此在实际应用中需根据具体情况选择合适的解决方案。
通过以上步骤,你可以成功安装GeckoDriver,并实现Selenium与Firefox浏览器的对接,从而进行网页抓取等操作。