python代理服务器搭建
① 怎样设置代理服务器
相信很多了解互联网工作的朋友对代理IP有简单的说HTTP代理服务器,位于Web客户端和Web服务器之间的角色,就叫HTTP代理服务器。它有什么用呢?最显着的作用就是可以匿名访问,使用HTTP代理服务器,通过隐藏本地实际IP地址,达到继续访问目标网站的目的。
HTTP服务器代理怎么设置?最先在互联网上找到你必须的代理IP,为了更好地确保更安全性的掩藏当地具体IP地址,使用IP均为高匿名代理IP,安全系数更强。
当确定代理IP后,点一下电脑浏览器上的专用工具比如IPIDEA可以提取IP,开启Internet选择项,在联接中打开设置,勾选定服务器代理,填写你的代理IP,保存就可以。此刻你开启网络搜索框,查看IP发生的便是代理IP地址了。
提供IP定制服务,可以针对python爬虫开发者需要,协助搭建HTTP代理服务器,并提供专人定期维护服务。如果你所需IP数量较少。
② “2022 年”崔庆才 Python3 爬虫教程 - 代理的使用方法
前面我们介绍了多种请求库,如 urllib、requests、Selenium、Playwright 等用法,但是没有统一梳理代理的设置方法,本节我们来针对这些库来梳理下代理的设置方法。
在本节开始之前,请先根据上一节了解一下代理的基本原理,了解了基本原理之后我们可以更好地理解和学习本节的内容。
另外我们需要先获取一个可用代理,代理就是 IP 地址和端口的组合,就是 : 这样的格式。如果代理需要访问认证,那就还需要额外的用户名密码两个信息。
那怎么获取一个可用代理呢?
使用搜索引擎搜索 “代理” 关键字,可以看到许多代理服务网站,网站上会有很多免费或付费代理,比如快代理的免费 HTTP 代理:https://www.kuaidaili.com/free/ 上面就写了很多免费代理,但是这些免费代理大多数情况下并不一定稳定,所以比较靠谱的方法是购买付费代理。付费代理的各大代理商家都有套餐,数量不用多,稳定可用即可,我们可以自行选购。
另外除了购买付费 HTTP 代理,我们也可以在本机配置一些代理软件,具体的配置方法可以参考 https://setup.scrape.center/proxy-client,软件运行之后会在本机创建 HTTP 或 SOCKS 代理服务,所以代理地址一般都是 127.0.0.1: 这样的格式,不同的软件用的端口可能不同。
这里我的本机安装了一部代理软件,它会在本地 7890 端口上创建 HTTP 代理服务,即代理为 127.0.0.1:7890。另外,该软件还会在 7891 端口上创建 SOCKS 代理服务,即代理为 127.0.0.1:7891,所以只要设置了这个代理,就可以成功将本机 IP 切换到代理软件连接的服务器的 IP 了。
在本章下面的示例里,我使用上述代理来演示其设置方法,你也可以自行替换成自己的可用代理。
设置代理后,测试的网址是 http://httpbin.org/get,访问该链接我们可以得到请求的相关信息,其中返回结果的 origin 字段就是客户端的 IP,我们可以根据它来判断代理是否设置成功,即是否成功伪装了 IP。
好,接下来我们就来看下各个请求库的代理设置方法吧。
首先我们以最基础的 urllib 为例,来看一下代理的设置方法,代码如下:
运行结果如下:
这里我们需要借助 ProxyHandler 设置代理,参数是字典类型,键名为协议类型,键值是代理。注意,此处代理前面需要加上协议,即 http:// 或者 https://,当请求的链接是 HTTP 协议的时候,会使用 http 键名对应的代理,当请求的链接是 HTTPS 协议的时候,会使用 https 键名对应的代理。不过这里我们把代理本身设置为了 HTTP 协议,即前缀统一设置为了 http://,所以不论访问 HTTP 还是 HTTPS 协议的链接,都会使用我们配置的 HTTP 协议的代理进行请求。
创建完 ProxyHandler 对象之后,我们需要利用 build_opener 方法传入该对象来创建一个 Opener,这样就相当于此 Opener 已经设置好代理了。接下来直接调用 Opener 对象的 open 方法,即可访问我们所想要的链接。
运行输出结果是一个 JSON,它有一个字段 origin,标明了客户端的 IP。验证一下,此处的 IP 确实为代理的 IP,并不是真实的 IP。这样我们就成功设置好代理,并可以隐藏真实 IP 了。
如果遇到需要认证的代理,我们可以用如下的方法设置:
这里改变的只是 proxy 变量,只需要在代理前面加入代理认证的用户名密码即可,其中 username 就是用户名,password 为密码,例如 username 为 foo,密码为 bar,那么代理就是 foo:[email protected]:7890。
如果代理是 SOCKS5 类型,那么可以用如下方式设置代理:
此处需要一个 socks 模块,可以通过如下命令安装:
这里需要本地运行一个 SOCKS5 代理,运行在 7891 端口,运行成功之后和上文 HTTP 代理输出结果是一样的:
结果的 origin 字段同样为代理的 IP,代理设置成功。
对于 requests 来说,代理设置非常简单,我们只需要传入 proxies 参数即可。
这里以我本机的代理为例,来看下 requests 的 HTTP 代理设置,代码如下:
运行结果如下:
和 urllib 一样,当请求的链接是 HTTP 协议的时候,会使用 http 键名对应的代理,当请求的链接是 HTTPS 协议的时候,会使用 https 键名对应的代理,不过这里统一使用了 HTTP 协议的代理。
运行结果中的 origin 若是代理服务器的 IP,则证明代理已经设置成功。
如果代理需要认证,那么在代理的前面加上用户名和密码即可,代理的写法就变成如下所示:
这里只需要将 username 和 password 替换即可。
如果需要使用 SOCKS 代理,则可以使用如下方式来设置:
这里我们需要额外安装一个包 requests[socks],相关命令如下所示:
运行结果是完全相同的:
另外,还有一种设置方式,即使用 socks 模块,也需要像上文一样安装 socks 库。这种设置方法如下所示:
使用这种方法也可以设置 SOCKS 代理,运行结果完全相同。相比第一种方法,此方法是全局设置的。我们可以在不同情况下选用不同的方法。
httpx 的用法本身就与 requests 的使用非常相似,所以其也是通过 proxies 参数来设置代理的,不过与 requests 不同的是,proxies 参数的键名不能再是 http 或 https,而需要更改为 http:// 或 https://,其他的设置是一样的。
对于 HTTP 代理来说,设置方法如下:
对于需要认证的代理,也是改下 proxy 的值即可:
这里只需要将 username 和 password 替换即可。
运行结果和使用 requests 是类似的,结果如下:
对于 SOCKS 代理,我们需要安装 httpx-socks 库,安装方法如下:
这样会同时安装同步和异步两种模式的支持。
对于同步模式,设置方法如下:
对于异步模式,设置方法如下:
和同步模式不同的是,transport 对象我们用的是 AsyncProxyTransport 而不是 SyncProxyTransport,同时需要将 Client 对象更改为 AsyncClient 对象,其他的不变,运行结果是一样的。
Selenium 同样可以设置代理,这里以 Chrome 为例来介绍其设置方法。
对于无认证的代理,设置方法如下:
运行结果如下:
代理设置成功,origin 同样为代理 IP 的地址。
如果代理是认证代理,则设置方法相对比较繁琐,具体如下所示:
这里需要在本地创建一个 manifest.json 配置文件和 background.js 脚本来设置认证代理。运行代码之后,本地会生成一个 proxy_auth_plugin.zip 文件来保存当前配置。
运行结果和上例一致,origin 同样为代理 IP。
SOCKS 代理的设置也比较简单,把对应的协议修改为 socks5 即可,如无密码认证的代理设置方法为:
运行结果是一样的。
对于 aiohttp 来说,我们可以通过 proxy 参数直接设置。HTTP 代理设置如下:
如果代理有用户名和密码,像 requests 一样,把 proxy 修改为如下内容:
这里只需要将 username 和 password 替换即可。
对于 SOCKS 代理,我们需要安装一个支持库 aiohttp-socks,其安装命令如下:
我们可以借助于这个库的 ProxyConnector 来设置 SOCKS 代理,其代码如下:
运行结果是一样的。
另外,这个库还支持设置 SOCKS4、HTTP 代理以及对应的代理认证,可以参考其官方介绍。
对于 Pyppeteer 来说,由于其默认使用的是类似 Chrome 的 Chromium 浏览器,因此其设置方法和 Selenium 的 Chrome 一样,如 HTTP 无认证代理设置方法都是通过 args 来设置的,实现如下:
运行结果如下:
同样可以看到设置成功。
SOCKS 代理也一样,只需要将协议修改为 socks5 即可,代码实现如下:
运行结果也是一样的。
相对 Selenium 和 Pyppeteer 来说,Playwright 的代理设置更加方便,其预留了一个 proxy 参数,可以在启动 Playwright 的时候设置。
对于 HTTP 代理来说,可以这样设置:
在调用 launch 方法的时候,我们可以传一个 proxy 参数,是一个字典。字典有一个必填的字段叫做 server,这里我们可以直接填写 HTTP 代理的地址即可。
运行结果如下:
对于 SOCKS 代理,设置方法也是完全一样的,我们只需要把 server 字段的值换成 SOCKS 代理的地址即可:
运行结果和刚才也是完全一样的。
对于有用户名和密码的代理,Playwright 的设置也非常简单,我们只需要在 proxy 参数额外设置 username 和 password 字段即可,假如用户名和密码分别是 foo 和 bar,则设置方法如下:
这样我们就能非常方便地为 Playwright 实现认证代理的设置。
以上我们就总结了各个请求库的代理使用方式,各种库的设置方法大同小异,学会了这些方法之后,以后如果遇到封 IP 的问题,我们可以轻松通过加代理的方式来解决。
本节代码:https://github.com/Python3WebSpider/ProxyTest
③ python 如何编写代理服务器
frombottleimportrun,route,request,response
fromurllib.requestimporturlopen
@route('<url:re:.*>')
defget_method(url):
data=urlopen(url)
returndata.read()
run(host='0.0.0.0',port=3456,debug=True)
我简单写一个,使用bottle框架,注意不要该ie的代理,使用别的浏览器如firefox代理到
127.0.0.1:3456
④ Nginx+Python 怎么搞才好
介绍NGINX和Python如何配合使用
Python以易用,有趣而出名,它让软件开发变得简单,据说运行性能也高于其他脚本语言(php最新版本PHP 7的性能好像可以与Python一较高下)
每一个人都希望自己的网站或应用可以运行得更快。但是每一个网站在大流量和流量激增时都容易遇到性能问题,甚至当机,业务繁忙时,这种情况会更加糟糕。其实无论流量是稳定增长,还是陡峭增长,所有网站都面临性能和当机的困扰。
NGINX和NGINX插件的出现就是为了解决这个问题。他们通过三种不同的方式来改善网站性能:
1、web服务 – 最初开发NGINX是为了解决 C10K 问题 – 可以轻松支撑10,000或更多的并发连接。使用NGINX为你的Python应用提供web服务,可以让你的网站运行更快,即便在小流量的情况下也有效果。当你的用户成千上万时,确定无疑,它可以提供更高的性能,更少的崩溃,以及更少的当机时间。你也可以使用NGINX提供静态文件缓存或者微缓存服务,一个独立的NGINX反向代理也是很好的选择(见下一段)。
2、反向代理– 你可以在应用服务的前端用NGINX做反向代理。NGINX接收Web请求并分发到你的应用服务。这个“怪招”可以让你的网站运行得更快,减少当机,消费更少的服务资源,而且可以提高安全性。你也可以在反向代理服务器上缓存静态资源(非常高效),添加静态内容的微缓存,以减少应用自身的负载,等等。
3、为多个应用服务提供动态均衡 – 通过布署反向代理服务。通过多应用服务并行运行和NGINX或者NGINX插件来做流量负载均衡。通过这种布署,根据流量需要,增长稳定性和运行时间需要,你可以很轻松地在线扩展网站性能。如果你需要让给定用户的会话在同一个服务上,你只需要配置负载均衡以支持会话持久化。
不管是为你的Python应用提供网站服务,还是做反向代理服务,还是做负载均衡,或者三者都用,NGINX和NGINX插件都会给你带来优势。
这是本系列(由两部分组成)中的第一篇文章,将会介绍五个提升Python应用性能的技巧,包括如何使用NGINX或NGINX插件提供web服务,如何实现静态文件的缓存,如何为动态内容做微缓存。在第二部分,我们将介绍如果用NGINX或NGINX插件提供反向代理服务,以及如何为多个应用服务提供负载均衡。
技巧 1– 定位Python性能瓶颈
有两种截然不同的情况会让你的Python应用遇到性能问题– 第一,每天有海量用户;第二,高负载。大部分网站长都不需要担心性能问题,因为他们的负载很小,根据我们的拙见,他们应该努力降低响应时间。将响应时间控制在毫秒级是一个非常困难且不被关注的工作。但可以让我们的用户体验更好,业绩更优秀。
但是这篇博文和剩下的第二部分,将关注每个人都确实关注的场景:当网站繁忙时可能会出现的性能问题,如性能大幅下降和当机。还有黑客模拟大量用户攻击造成的流量激增,同时提高网站性能也是处理攻击的重要步骤。
像Apache HTTP Server这样的系统会为每个用户分配一定数量的内存,随着用户的不断增加,物理内存不堪重负。服务器开始使用磁盘的交换分区,性能直线下降,性能问题和当机接踵而至。这篇博文中所介绍的迁移到NGINX,有助于解决这一问题。
Python特别容易出现内存相关的性能问题,因为与其他脚本语言相比,Python通常是使用更多的内存来执行任务(所以执行速度快)。所以在相同条件下,与用其他语言写的应用相比,你的Python应用更容易在少量用户的情况下而“绊倒”。
优化你的应用对解决问题会有所帮助,但要解决流量相关的性能问题,这通常不是最好最快的方式。这篇博文及剩下的第二部分,将介绍一种最好并且最快的方式。在实施这些措施之后,再采取一切方法优化你的应用,或者使用微服务架构重写。
技巧 2 – 选择单服务或者微服务布署
小网站在单个服务器上就可以运行得很好。大的网站需要多个服务器。但如果你处于中间地带–或者你的网站从一个小网站变成一个大网站– 你可以做一些有趣的选择。
如果你使用单机布署,大流量和浏览激增会给你带来很大的风险。你的扩展手段非常有限,无外乎优化你的应用,把web服务切换到NGINX,使用一个更大更快的服务器,或者使用内容分发网络(CDN)。所有这些可选项的实施都耗时耗钱,而且在实施过程中还有引入bug的风险。
另外一个很显然的风险是单机布署存在单点故障问题 – 很多问题可以导致你的站点挂掉,而且没有快速简单的解决方案。
使用NGINX做为应用的代理服务
如果你把服务切换成NGINX并且使用单机布署,你可以自由地选择使用开源的NGINX或者NGINX插件。NGINX包括企业级支持和一些扩展功能。像实时活动监测这样的扩展功能是支持单机布署的。如果做为反向代理,采用分布式布署,你可以使用其他NGINX插件,如负载均衡和会话持久化。
有很多事情都要考虑周详,除非你确定你的网站在未来很长时间内都是一个小网站,不需要关心当机问题,否则,你要明白,单机布署存在很多风险。分布式布署比较易于扩展 – 单点故障可以通过工程解决,性能可以按需调整,可以快速扩充服务器能力。
技巧 3 – 使用NGINX替换你的Web服务
在Web时代的早期,Apache就是web服务的同义词。但NGINX自2000年出现以来,迅速流行开来;现在已经是排名第一的web服务,被1,000, 10,000多个网站和世界上最繁忙的100,000多个网站使用。
NGINX最初是为了解决C10K问题而开发 – 在给定内存预算下支持10,000+并发。其他web服务需要为每个连接分配内存块,所以他们会耗尽物理内存,当数以千记的用户在同一时间访问一个网站,它会变慢甚至崩溃。NGINX处理器可以单独处理一个请求,也可以优雅地扩展,同时处理多个用户。(这可以很好地解决额外问题,后面会详述。)
一个高层NGINX架构图如下所示。
NGINX 架构, 选自开源应用架构第二卷
在上图,一个Python应用服务被布署在后端的应用服务块中,如图所示,它通过FastCGI被访问。NGINX不“知道”怎么运行Python,所以它需要一个网关连结需要的环境。FastCGI是一个被PHP,Pyhton和其他语言广泛使用的接口。
但是,连结Python和NGINX的流行方案是网络服务网关接口(WSGI)。WSGI工作在多线程和多进程环境下,所以他兼容本文所提到的所有布署选项。
如果你将web服务迁移到NGINX,这里有一些有用的软件:
Configuring gunicorn – “Green Unicorn”是一个流行的WSGI服务,配合NGINX使用。
Configuring uWSGI – 另一个流行的WSGI服务,配合NGINX使用. uWSGI包含NGINX指令支持。
Using uWSGI, NGINX, and Django – 一个流行的Python web框架。
下面的代码片断将向你展示如何配置NGINX和uWSGI – 这个案例中的工程使用Python框架Django。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
http
{
...
upstream
django {
server
127.0.0.1:29000;
}
server
{
listen
80;
server_name
myapp.example.com;
root
/var/www/myapp/html;
location
/ {
index
index.html;
}
location
/static/
{
alias
/var/django/projects/myapp/static/;
}
location
/main {
include
/etc/nginx/uwsgi_params;
uwsgi_pass
django;
uwsgi_param
Host $host;
uwsgi_param
X-Real-IP $remote_addr;
uwsgi_param
X-Forwarded-For $proxy_add_x_forwarded_for;
uwsgi_param
X-Forwarded-Proto $http_x_forwarded_proto;
}
}
}
技巧 4 – 实现静态文件缓存
缓存静态内容包括:为不经常变更的文件保存副本 – 不经常是指数小时或者永远 – 副本保存在其他位置而不是应用服务中。典型的静态内容是网页中经常用到的JPEG图片。
缓存静态文件是提升应用性能的常用手段,经常被用到:
1、用户浏览器
2、互联网提供商 – 从公司网络到互联网提供商(ISP)
3、web服务, 也就是本文所讲的
在web服务端实现静态文件缓存有两个好处:
1、为用户提供快速服务 – NGINX 专门为静态文件缓存做过优化,对静态内容请求的处理比应用服务要快。
2、减少应用服务负载– 应用服务不需要处理已经缓存的静态文件,已经由web服务接管。
缓存静态文件在单服务器上也可以很好的实现,但底层硬件资源仍然是由web服务和应用服务所共享。如果web服务要处理频率的静态文件访问 – 甚至是海量 – 应用服务可以使用的硬件资源就会变少,一些功能可能就会变慢。
如果要支持浏览器缓存,需要正确设置静态文件的头部信息。如HTTPCache Control(特别是它的max age设置),Expires,和Entity标记。如果想深入了解,参见NGINX Plus的管理员指南:使用NGINX为uWSGI和Django提供应用网关
下面的NGINX配置代码用来缓存静态文件,包括JPEG文件,GIF文件,PNG文件,MP4文件,Powerpoint文件,和一些其他文件,请把www.example.com替换成你自己的网址。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
server
{
#
substitute your web server's URL for
"www.example.com"
server_name
www.example.com;
root
/var/www/example.com/htdocs;
index
index.php;
access_log
/var/log/nginx/example.com.access.log;
error_log
/var/log/nginx/example.com.error.log;
location
/ {
try_files
$uri $uri/ /index.php?$args;
}
location
~ \.php$ {
try_files
$uri =404;
include
fastcgi_params;
#
substitute the socket, or address and port, of your Python server
fastcgi_pass
unix:/var/run/php5-fpm.sock;
#fastcgi_pass
127.0.0.1:9000;
}
location
~* .(ogg|ogv|svg|svgz|eot|otf|woff|mp4|ttf|css|rss|atom|js|jpg
|jpeg|gif|png|ico|zip|tgz|gz|rar|bz2|doc|xls|exe|ppt|tar|mid
|midi|wav|bmp|rtf)$
{
expires
max;
log_not_found
off;
access_log
off;
}
}
技巧 5 – 实现微服务
微缓存可以很明显的大幅提升Python, PHP和一些其他语言开发的应用服务性能,根据是否适合缓存,可以把网页分成三类:
静态文件 – 这类文件适合缓存,见技巧4所述。
动态,非个性化页面 – 因为它们需要刷新,这些文件通常不适合做缓存。例如未登录前的电商用户所看到的页面(见下一点) – 可用商品和推荐相似商品经常要发生改变,所以必须生成新页面。但是,如果有另外一个用户,在10毫秒之后发送同样请求,将前一用户看到的网页缓存并发送给后一用户就变得合情合理。
动态,个性化页面 –这些不适合缓存,因为它们是针对具体用户的,同一个用户不希望两次看到同一个个性化页面。例如一个电商用户登录后的页面不应该展示给另外一个用户。
静态文件和非个化性动态内容可以缓存
微缓存适用于上面提到的第二类页面–动态,非个性化页面。“微”是指很短的时间。如果你的网站在一秒内要多次生成同一个页面,如果你把这个页面只缓存一秒,并不影响该页面的刷新。但这个短暂的缓存可以极大的降低应用服务的负载,特别是流量较大时。将原来在一个缓存区间内,同一内容生成10,或者20,甚至100次,调整为只生成一次并缓存,为其他用户提供缓存内容。
这个效果是很神奇的。一个服务如果一秒钟要处理大量请求会变得很慢,但如果只处理一个请求,就会变得很快。(包括任何个性化页面)。我们自己的Owen Garrett有一篇博客对微服务的优势做了详情介绍,里面还有配置代码。主要要修改的地方是把代理缓存过期时间设为一秒,只需要几行配置代码就可以搞定。
1
2
3
4
5
6
proxy_cache_path
/tmp/cache keys_zone=cache:10m levels=1:2
inactive=600s max_size=100m;
server
{
proxy_cache
cache;
proxy_cache_valid
200
1s;
...
}
更多配置样例,参见Tyler Hicks Wright关于Python和uWSGI如何使用NGINX的博客。
总结
在第一部分,我们回顾了一下在单机环境下提高Python应用性能的解决方案,还有缓存的使用,在单机情况下缓存可以应用于反向代理服务器或者独立缓存服务(缓存比独立服务性能更好)。在下一部分,我们将会介绍分布式环境下的性能提升方案。
如果你想在应用中使用更多的NGINX Plus特性,如实时事件监测,在线修改配置,你可以马上开通30天免费试用,或者联系我们,可以获得一个真实例子。
⑤ 怎么将自己的电脑设置为代理服务器
供你参考:
一.代理服务器硬件和软件基本要求
1) 服务器的配置跟用户数有关。
如果用户数在20人以内,一般的PC电脑就可以作为代理服务器了。推荐PII芯片,内存128M,硬盘10G。如果用户数在20人以上100人以下,需要选用专业的服务器作为代理服务器,服务器一定要专用,即专门作为代理服务器来用。推荐PIII芯片,内存256M,硬盘20G。如果用户数在100人以上,需要选择高配置的服务器作为代理服务器,服务器一定要专用,即专门作为代理服务器来用。推荐双CPU,内存1G,硬盘40G。
2) 网卡配置。
尽量选用性能比较稳定的网卡作为服务器网卡,100M网卡。推荐品牌:原装D-Link,3COM。由于是作为服务器网卡,尽量选用高性能中高价位的网卡。
3) 操作系统。
如果客户端用户数在10人以上,我们推荐您安装Win2000 Advanced Server,并打好最新补丁。Win98只适合10用户网络环境,Win NT需要打太多的补丁,Win2000 Professional只适合个人和家庭电脑,所以最好选用Win2000 Advanced Server。
4) 杀毒软件及防火墙软件。
我们推荐您用Norton杀毒软件及Norton防火墙软件来保护您的服务器。为了方便调试代理服务器,请在代理服务器安装调试成功后,再安装和使用杀毒软件和防火墙软件。
二.局域网网络环境配置要求
确认局域网连接通畅,能够相互ping成功。
服务器的IP设置有几个需要注意的地方:
1) 检查服务器的网络属性,确保里面没有多余的无用的TCP/IP协议,如果服务器是Win98操作系统,操作系统安装过程中会自动添加一些无存在的拨号适配器及相应的TCP/IP协议,需要删除这些多余的网卡适配器和相应的TCP/IP协议。否则很容易引起网卡冲突。
2) 如果服务器安装了两块网卡或者多块,在网卡IP设置上需要注意,不要将网卡的IP设置在一个网段内,这样会造成路由混乱。比如一块网卡是192.168.0.1,另一块网卡就不要设置成192.168.0.2,可以设置为192.168.1.1。
3) 服务器的网卡一般不要设置网关,尤其是连接局域网的网卡,不要设置网关,否则很容易造成路由冲突。
如果没有配置好局域网,建议按照下面的方法配置局域网。分配好局域网机器的IP。一般是192.168.0.1、192.168.0.2、192.168.0.3、…192.168.0.254,其中服务器是192.168.0.1,其他IP地址为客户端的IP地址。子网掩码为255.255.255.0,DNS为192.168.0.1。如果客户端操作系统是Win98,请设置网关指向192.168.0.1,DNS主机名填本地机器名。
三.代理服务器有很多种的,以Wingate为例,简单介绍一下:
1)做代理服务器的计算机需要两个网卡(例如外网卡192.168.168.9、内网卡192.168.0.1)。外网卡如果是静态公网IP,请按照ISP设置,如果是动态获得的公网IP,则不用设置,如果是专网IP,例如192.168.168.9(IP)255.255.255.0(MASK)192.168.168.1(GATEWAY) 202.99.160.68(公网DNS,当然代理服务器本身提供DNS服务的话也可以设置为192.168.168.9或192.168.0.1)。内网卡设置,例如192.168.0.1(IP)255.255.255.0(MASK),请不要设置内网卡的默认网关,DNS可以设置也可以不设置。
2)安装wingate全部默认(不知道你有没有CD-KEY),重起后打开管理控制窗口(可以设密码,也可以不设置密码,最初的密码为空就可以进去)。然后修改HTTP代理的端口如8080,一定要注意一下哪些接口可以做代理,例如可以设置为任意接口。SOCKS5代理默认就已经启用,默认服务端口是1080。
3)客户机(在网吧内)网卡设置,例如192.168.0.2(IP)255.255.255.0(MASK),其他不用设置。
客户机IE设置使用代理服务器,例如192.168.0.1(IP)8080(HTTP);192.168.0.1(IP)1080(SOCKS5)
客户机(在网吧以外,就像您在家)设置。如果代理服务器的外网卡IP是静态公网IP,如218.16.66.1,只需要您的IE设置使用代理服务器,例如218.16.66.1(IP)8080(HTTP);218.16.66.1(IP)1080(SOCKS5)。如果代理服务器的外网卡IP是动态公网IP,则需要DDNS的支持,不再赘述。如果代理服务器的外网卡IP是静态内网IP,则需要在网吧路由器上作端口映射,不再赘述。
4)wingate功能强大,使用简单。
⑥ 如何为 windows 下的 python 的 pip 工具设置代理服务器
在安装pip前,请确认你win系统中已耐纤宏经安装好了python,和easy_install工具,如果系统安昌册装成功,easy_install在目录C:\Python27\Scripts 下面,进入命令行,然后把目录切换到python的安装目录下的Script文件夹下,运行 easy_inatall pip
pip安装成竖樱功后,在cmd下执行pip,将会有如下提示.
⑦ python 怎么通过代理服务器
1 proxy_handle = urllib.request.ProxyHandler({'http':random.choice(proxy_list)})
2 opener = urllib.request.build_opener(proxy_handle)
3 response = opener.open(url)
proxy_list 为并键代冲蔽游理ip列表散销
⑧ python中,进行爬虫抓取怎么样能够使用代理IP
网络数据量越来越大,从网页中获取信息变得越来越困难,如何有效地抓取并利用信息,已成为网络爬虫一个巨大的挑战。下面IPIDEA为大家讲明爬虫代理IP的使用方法。
1.利用爬虫脚本每天定时爬取代理网站上的ip,写入MongoDB或者其他的数据库中,这张表作为原始表。
2.使用之前需要做一步测试,就是测试这个ip是否有效,方法就是利用curl访问一个网站查看返回值,需要创建一张新表,循环读取原始表有效则插入,验证之后将其从原始表中删除,验证的同时能够利用响应时间来计算这个ip的质量,和最大使用次数,有一个算法能够参考一种基于连接代理优化管理的多线程网络爬虫处理方法。
3.把有效的ip写入ip代理池的配置文件,重新加载配置文件。
4.让爬虫程序去指定的dailiy的服务ip和端口,进行爬取。
⑨ python 爬虫 ip池怎么做
Python爬虫采集信息都是采用IP进行更改,不然就不能快速的爬取信息,可以加入采用这类方式,就失去了快速抓取的意义。
所以,如果要大批量的抓取信息,就不能避免的使用IP池,针对Python爬虫使用的IP池,是如何搭建起来的呢?接下来和大家说明一下如何建爬虫IP池的问题。
第一步:找IP资源
IP资源并不丰富,换句话说是供不应求的,因此一般是使用动态IP。
免费方法,直接在网络上找,在搜索引擎中一搜索特别多能够提供IP资源的网站,进行采集即可。
付费方法,通过购买芝麻代理上的IP资源,并进行提取,搭建IP池。
第二步,检测可用IP保存
提取到的IP,可以进一步进行检测是否可用,比如访问某个固定的网站,找出访问成功的IP进行保存。
第三步,随机调用IP
在爬虫需要使用IP时,可用读取保存IP的文件,进行随机调用IP。
本文介绍了如何建爬虫的IP池方法,可以说搭建IP池很容易,可有些IP的时效性很短,使用之前还可以再测试一次的。如果考虑免费IP,那么对于IP的效果性要做好心理准备的。
⑩ python爬虫 如何自己用云服务器上搭建代理服务器 并使用requests测试代理
1、简介
使用同一个ip频繁爬取一个网站,久了之后会被该网站的服务器屏蔽。所以这个时候需要使用代理服务器。通过ip欺骗的方式去爬取网站
可以使用http://yum.iqianyue.com.com/proxy中找到很多服务器代理地址
2、应用
# *-*coding:utf-8*-*
from urllib import request
def use_porxy(porxy_addr,url):
porxy = request.ProxyHandler({'http':porxy_addr})
opener = request.build_opener(porxy, request.ProxyHandler)
request.install_opener(opener)
data = request.urlopen(url).read().decode('utf-8')
return data
data = use_porxy("114.115.182.59:128","http://www..com")
print(len(data))