加密防采集

发布时间: 2022-07-03 22:20:14

1. 火车头采集网站代码加密防采集怎么破解

再加密也会被浏览器解析，可以用抓包工具来破解或者使用火车浏览器八爪鱼是不行的

2. 哪种文件夹加密软件可以防止被“文件夹嗅探器”嗅探

给你推荐三个软件:
文件夹加密超级大师
http://www.skycn.com/soft/23563.html

强大、专业的文件、文件夹加密软件。

超级加密3000
http://www.skycn.com/soft/24090.html

功能强大的文件和文件夹加密和保护软件。

文件夹保护 2006

http://www.skycn.com/soft/26632.html

优秀的文件夹保护软件，可以对文件夹进行加密码、隐藏、伪装的保护。快捷，方便的解决你文件保密问题。

3. 网页防采集策略

网页防采集策略
目前防采集的方法有很多种，先介绍一下常见防采集策略方法和它的弊端及采集对策：

一、判断一个IP在一定时间内对本站页面的访问次数，如果明显超过了正常人浏览速度，就拒绝此IP访问。

弊端：
1、此方法只适用于动态页面，如：asp\\jsp\\php等...静态页面无法判断某个IP一定时间访问本站页面的次数。
2、此方法会严重影响搜索引擎蜘蛛对其收录，因为搜索引擎蜘蛛收录时，浏览速度都会比较快而且是多线程。此方法也会拒绝搜索引擎蜘蛛收录站内文件。
采集对策：只能放慢采集速度，或者不采。
建议：做个搜索引擎蜘蛛的IP库，只允许搜索引擎蜘蛛快速浏览站内内容。搜索引擎蜘蛛的IP库的收集，也不太容易，一个搜索引擎蜘蛛，也不一定只有一个固定的IP地址。
评论：此方法对防采集比较有效，但却会影响搜索引擎对其收录。

二、用javascript加密内容页面

弊端：此方法适用于静态页面，但会严重影响搜索引擎对其收录情况，搜索引擎收到到的内容，也都是加密后的内容。
采集对策：建议不采，如非要采，就把解密码的JS脚本也采下来。
建议：目前没有好的改良建议。
评论：建议指望搜索引擎带流量的站长不要使用此方法。

三、把内容页面里的特定标记替换为”特定标记+隐藏版权文字“

弊端：此方法弊端不大，仅仅会增加一点点的页面文件大小，但容易反采集。
采集对策：把采集来的含有隐藏版权文字内容的版权文字替掉，或替换成自己的版权。
建议：目前没有好的改良建议。
评论：自己感觉实用价值不大，就算是加上随机的隐藏文字，也等于画蛇添足。

四、只允许用户登陆后才可以浏览

弊端：此方法会严重影响搜索引擎蜘蛛对其收录
采集对策：目前落伍已经有人发了对策文章，具体对策就看这个吧《ASP小偷程序如何利用XMLHTTP实现表单的提交以及cookies或session的发送》。
建议：目前没有好的改良建议。
评论：建议指望搜索引擎带流量的站长不要使用此方法。不过此方法防一般的采集程序，还是有点效果的。

五、用javascript、vbscript脚本做分页

弊端：影响搜索引擎对其收录。
采集对策：分析javascript、vbscript脚本，找出其分页规则，自己做个对应此站的分页集合页即可。
建议：目前没有好的改良建议。
评论：感觉懂点脚本语言的人都能找出其分页规则。

六、只允许通过本站页面连接查看，如：Request.ServerVariables(“HTTP_REFERER“)

弊端：影响搜索引擎对其收录。
采集对策：不知道能不能模拟网页来源。。。。目前我没有对应此方法的采集对策。
建议：目前没有好的改良建议。
评论：建议指望搜索引擎带流量的站长不要使用此方法。不过此方法防一般的采集程序，还是有点效果的。

从以上可以看出，目前常用的防采集方法，要么会对搜索引擎收录有较大影响，要么防采集效果不好，起不到防采集的效果。那么，还有没有一种有效防采集，而又不影响搜索引擎收录的方法呢？那就请继续往下看吧！

作者:pujiwang 2006-6-22 14:12:15 | 回复此帖子

广而告之：

2 回复:[转帖]网页防采集策略防采集的一些思路的探讨
防采集的一些思路的探讨
关键词：采集

1、用不同的模板
对于用程序的网站来说，不大可行，一个网站的模板最多也就几套吧。

2、使用robots禁止访问网页目录
这个方法可以有效的防止采集，不过将搜索引擎也封掉了，对于靠搜索引擎吃饭的站长们来说，得不偿失。
一个例子，Disallow 后面就是禁止访问的目录：

作者： 218.19.189.* 封 2006-10-20 11:35 回复此发言删除

--------------------------------------------------------------------------------

2 [转帖]网页防采集策略

User-agent: *
Disallow: /admin
Disallow: /attachments
Disallow: /images
Disallow: /forumdata
Disallow: /include

3、使用HTTP_REFERER禁止采集，发现来自非本站连接就禁止察看叶面，就像前一段落伍im286.net防DDOS那个禁止调用一样。
这个方法可以比较有效的防止采集，不过也一样把搜索引擎封掉了，对于靠搜索引擎吃饭的站长们来说，得不偿失。
对高手无效，因为HTTP_REFERER可以伪造。但对一般使用采集的人来说，已经足够应付了。
例：

php
if(preg_replace("/https?://([^/]+).*/i", "1", $HTTP_SERVER_VARS['HTTP_REFERER']) != $HTTP_SERVER_VARS['HTTP_HOST']) {
exit('警告----你的操作已经被禁止。http://www.ic98.com';);
}

4、使用HTTP_REFERER伪造内容
这个方法可以比较有效的防止采集，不过对于搜索引擎来说，查到的东西跟你伪造的东西一样的，可能会影响收录。(如有不对，请高手指出)
同上，对于高手无效。

5、使用java加密内容。
这个可能会比较有效，但是我对java一窍不通，也就不清楚如何入手了。
但我想，既然你这样使得别人采集到乱码，搜索引擎有可能也是收录到乱码的(我不清楚搜索引擎怎么工作，不过我猜测他们是察看网页源代码的。)，也就影响收录。

6、使用java加密网址
同上，有可能让搜索引擎无法搜索到你的网页。

7、生成pdf文件、生成图片
这个方法可以比较有效的防止采集，不过照样让搜索引擎望而却止。

8、加上自己的版权信息
这个方法最大的好处就是不影响搜索引擎，效果马马虎虎，一般上可以让采集者采集到带有自己版权的稿件内容。但是对于可以过滤广告的采集程序来说，不大有效。

以下是作者给俺的PM:

Quote:
你的版权是不是加了你的网站和网址?
只要把网址和网站名替换成他的就可以了啊.这样还让他有了版权功能呢.
反正防采真是头疼....

有点麻烦，我的思路是将网站名称分成一个一个字来显示，他不可能将每个字都替换掉吧？不过要这样我就没办法了。比如说我将我的武侠网拆开，分成

武侠网

，$rand_color*是随机颜色，可以自己控制的，如果是动态网页的话，还配合HTTP_REFERER来搞随机，这样子随机性就更大了。一般上，尽量制造难度就是了。模板也可以制造随机性，几个相似的模板轮流来弄，这样子让人采集的难度更大。

不过说实话，要使他们真要搞，那是没办法的事，不过至少要花他们很多的时间去研究。在此之前，他们可能没耐性转向别的站了。

另外，最好不要让人知道你使用随机函数。一般人只是稍微看一下网页代码，就开始采集了。

作者:pujiwang 2006-6-22 14:13:53 | 回复此帖子

3 回复:[转帖]网页防采集策略
防采集程序
下午无聊写着完，写完后自己仔细看了看防止采集还是有一定的效果的，哈哈，要的拿去用吧！

<%
Dim AppealNum,AppealCount
AppealNum=10 '同一IP60秒内请求限制10次
AppealCount=Request.Cookies("AppealCount")
If AppealCount="" Then
response.Cookies("AppealCount")=1
AppealCount=1
response.cookies("AppealCount").expires=dateadd("s",60,now())
Else
response.Cookies("AppealCount")=AppealCount+1
response.cookies("AppealCount").expires=dateadd("s",60,now())
End If
if int(AppealCount)>int(AppealNum) then
response.write "歇一会儿吧！整天采集你烦不烦啊！"
response.end
End If
%>

作者:pujiwang 2006-6-22 14:16:31 | 回复此帖子

4 回复:[转帖]网页防采集策略
[讨论]防采集这几天上网，竟然也现我的整站被人家全部采集去了。晕倒，几年的资料就这样便宜人家。

还好，人家是个懒虫，栏目都不分，鬼才会去看。

这样才想起怎样防止采集的方法。

注意，只是讨论可行性，还没有提供解决方案。

采集与搜索引擎的机器人不同。采集需要对网页进行分析，以找到规则，分别对标题和内容进行读取并记录到数据库中。

如果我们能够把网页做成没有规则，采集也就无从入手了。

说到规则，我就想趣了空格。

空格这东西，在HTM的<>中，并不产生作用，也就是说，一个空格的位置，你多加几个也是没关系的。象<table>你可以写成< table>,<table >,< table >。都可以，所以，如果在网页里面，特别是采集程序重点分析的位置，我们利用程序，在这些位置加些空格，采集也就难以下手了，就算采到了，也就几篇而已，影响不大。

我准备这样做，象原来在模板中的<table>，我会改成<{$space1$}table{$space2$}>,在这里，{$space1$}和{$space2$}是自定义标签(也可以融合到程序中)，然后在程序中使用随机数来决定这两个标签用多少个空格来代替。

呵呵，人家现在想用<table>来做为特征采集是完全做不到的了。但对于我的网页，显示上一点影响也没有，对于搜索引擎的机器人也一点影响没有。

我想这应该是最合适的方法。

希望做过采集或改过采集的讨论一下。

作者:pujiwang 2006-6-22 14:18:27 | 回复此帖子

4. 用MD5加密分页文件名防采集，会影响搜索引擎蜘蛛对其收录吗

目前防采集的方法有很多种，先介绍一下常见防采集策略方法和它的弊端及采集对策：

一、判断一个IP在一定时间内对本站页面的访问次数，如果明显超过了正常人浏览速度，就拒绝此IP访问
弊端：
1、此方法只适用于动态页面，如：asp\jsp\php等…静态页面无法判断某个IP一定时间访问本站页面的次数
2、此方法会严重影响搜索引擎蜘蛛对其收录，因为搜索引擎蜘蛛收录时，浏览速度都会比较快而且是多线程。此方法也会拒绝搜索引擎蜘蛛收录站内文件
采集对策：只能放慢采集速度，或者不采
建议：做个搜索引擎蜘蛛的IP库，只允许搜索引擎蜘蛛快速浏览站内内容。搜索引擎蜘蛛的IP库的收集，也不太容易，一个搜索引擎蜘蛛，也不一定只有一个固定的IP地址。
评论：此方法对防采集比较有效，但却会影响搜索引擎对其收录。

二、用javascript加密内容页面

弊端：此方法适用于静态页面，但会严重影响搜索引擎对其收录情况，搜索引擎收到到的内容，也都是加密后的内容
采集对策：建议不采，如非要采，就把解密码的JS脚本也采下来。
建议：目前没有好的改良建议
评论：建议指望搜索引擎带流量的站长不要使用此方法。

三、把内容页面里的特定标记替换为”特定标记+隐藏版权文字“

弊端：此方法弊端不大，仅仅会增加一点点的页面文件大小，但容易反采集
采集对策：把采集来的含有隐藏版权文字内容的版权文字替掉，或替换成自己的版权。
建议：目前没有好的改良建议
评论：自己感觉实用价值不大，就算是加上随机的隐藏文字，也等于画蛇添足。

四、只允许用户登陆后才可以浏览
弊端：此方法会严重影响搜索引擎蜘蛛对其收录
采集对策：目前落伍已经有人发了对策文章，具体对策就看这个吧《ASP小偷程序如何利用XMLHTTP实现表单的提交以及cookies或session的发送》
建议：目前没有好的改良建议
评论：建议指望搜索引擎带流量的站长不要使用此方法。不过此方法防一般的采集程序，还是有点效果的。

五、用javascript、vbscript脚本做分页
弊端：影响搜索引擎对其收录
采集对策：分析javascript、vbscript脚本，找出其分页规则，自己做个对应此站的分页集合页即可。
建议：目前没有好的改良建议
评论：感觉懂点脚本语言的人都能找出其分页规则

六、只允许通过本站页面连接查看，如：Request.ServerVariables(”HTTP_REFERER”)
弊端：影响搜索引擎对其收录
采集对策：不知道能不能模拟网页来源。。。。目前我没有对应此方法的采集对策
建议：目前没有好的改良建议
评论：建议指望搜索引擎带流量的站长不要使用此方法。不过此方法防一般的采集程序，还是有点效果的。

从以上可以看出，目前常用的防采集方法，要么会对搜索引擎收录有较大影响，要么防采集效果不好，起不到防采集的效果。那么，还有没有一种有效防采集，而又不影响搜索引擎收录的方法呢？那就请继续往下看吧，精彩的地方马上呈献给大家。

下面就是我的防采集策略，防采集而又不防搜索引擎

从前面的我讲的采集原理大家可以看出，绝大多数采集程序都是靠分析规则来进行采集的，如分析分页文件名规则、分析页面代码规则。

一、分页文件名规则防采集对策

大部分采集器都是靠分析分页文件名规则，进行批量、多页采集的。如果别人找不出你的分页文件的文件名规则，那么别人就无法对你的网站进行批量多页采集。
实现方法：
我认为用MD5加密分页文件名是一个比较好的方法，说到这里，有人会说，你用MD5加密分页文件名，别人根据此规则也可以模拟你的加密规则得到你的分页文件名。

我要指出的是我们加密分页文件名时，不要只加密文件名变化的部分
如果I代表分页的页码，那么我们不要这样加密
page_name=Md5(I,16)&”.htm”

最好给要加密的页码上再跟进一个或多个字符，如：page_name=Md5(I&“任意一个或几个字母”,16)&”.htm”

因为MD5是无法反解密的，别人看到的会页字母是MD5加密后的结果，所以加人也无法知道你在 I 后面跟进的字母是什么，除非他用暴力****MD5，不过不太现实。

二、页面代码规则防采集对策

如果说我们的内容页面无代码规则，那么别人就无法从你的代码中提取他们所需要的一条条内容。
所以我们要的这一步做到防采集，就要使代码无规则。
实现方法：
使对方需要提取的标记随机化
1、定制多个网页模板，每个网页模板里的重要HTML标记不同，呈现页面内容时，随机选取网页模板，有的页面用CSS+DIV布局，有的页面用table布局，此方法是麻烦了点，一个内容页面，要多做几个模板页面，不过防采集本身就是一件很烦琐的事情，多做一个模板，能起到防采集的作用，对很多人来说，都是值得的。
2、如果嫌上面的方法太麻烦，把网页里的重要HTML标记随机化，也可以。

做的网页模板越多，html代码越是随机化，对方分析起内容代码时，就越麻烦，对方针对你的网站专门写采集策略时，难度就更大，在这个时候，绝大部分人，都会知难而退，因为这此人就是因为懒，才会采集别人网站数据嘛~~~再说一下，目前大部分人都是拿别人开发的采集程序去采集数据，自己开发采集程序去采集数据的人毕竟是少数。

还有些简单的思路提供给大家：
1、把对数据采集者重要，而对搜索引擎不重要的内容用客户端脚本显示
2、把一页数据，分为N个页面显示，也是加大采集难度的方法
3、用更深层的连接，因为目前大部分采集程序只能采集到网站内容的前3层，如果内容所在的连接层更深，也可以避免被采集。不过这样可能会给客户造成浏览上的不便。
如：
大多网站都是首页—-内容索引分页—-内容页
如果改成：
首页—-内容索引分页—-内容页入口—-内容页
注：内容页入口最好能加上自动转入内容页的代码

5. 网站如何避免被采集呢有什么好的方法吗

可以设置的，叫你们的建站人员搞个代码加密，让别人不能采集，不能复制你们的文章就可以了。

6. php如何防止网站内容被采集

1、限制IP地址单位时间的访问次数
分析：没有哪个常人一秒钟内能访问相同网站5次，除非是程序访问，而有这种喜好的，就剩下搜索引擎爬虫和讨厌的采集器了。
弊端：一刀切，这同样会阻止搜索引擎对网站的收录
适用网站：不太依靠搜索引擎的网站
采集器会怎么做：减少单位时间的访问次数，减低采集效率
2、屏蔽ip
分析：通过后台计数器，记录来访者ip和访问频率，人为分析来访记录，屏蔽可疑Ip。
弊端：似乎没什么弊端，就是站长忙了点
适用网站：所有网站，且站长能够知道哪些是google或者网络的机器人
采集器会怎么做：打游击战呗!利用ip代理采集一次换一次，不过会降低采集器的效率和网速(用代理嘛)。
3、利用js加密网页内容
Note:这个方法我没接触过，只是从别处看来
分析：不用分析了，搜索引擎爬虫和采集器通杀
适用网站：极度讨厌搜索引擎和采集器的网站
采集器会这么做：你那么牛，都豁出去了，他就不来采你了
4、网页里隐藏网站版权或者一些随机垃圾文字，这些文字风格写在css文件中
分析：虽然不能防止采集，但是会让采集后的内容充满了你网站的版权说明或者一些垃圾文字，因为一般采集器不会同时采集你的css文件，那些文字没了风格，就显示出来了。
适用网站：所有网站
采集器会怎么做：对于版权文字，好办，替换掉。对于随机的垃圾文字，没办法，勤快点了。
5、用户登录才能访问网站内容
分析：搜索引擎爬虫不会对每个这样类型的网站设计登录程序。听说采集器可以针对某个网站设计模拟用户登录提交表单行为。
适用网站：极度讨厌搜索引擎，且想阻止大部分采集器的网站
采集器会怎么做：制作拟用户登录提交表单行为的模块

7. 加密的数据如何采集需要破解吗

博为101异构数据采集引擎是可以采集加密的数据的，不管传输是否加密了，当数据被呈现在客户端的时候就都被解析出来了。博为101异构数据采集引擎是基于底层
数据交换
和
网络流量
进行智能采集的。

8. ASP与PHP如何防采集

你的内容如果有很多页的话，一定程度上可以通过session 变量，把页面的id 访问的时间存进去，然后删除5分钟前访问的页面的id，如果发现比如有5个不同的id在session里面。就直接返回主页上。当然这个方法也防了一般用户。这个限制的逻辑在于，一般用户是不可能在x分钟之内看超过y个界面。 x y 的定义自己来定.

阅读全文

热点内容

java返回this 发布：2025-10-20 08:28:16 浏览：978

制作脚本网站发布：2025-10-20 08:17:34 浏览：1248

python中的init方法发布：2025-10-20 08:17:33 浏览：937

图案密码什么意思发布：2025-10-20 08:16:56 浏览：1117

怎么清理微信视频缓存发布：2025-10-20 08:12:37 浏览：984

c语言编译器怎么看执行过程发布：2025-10-20 08:00:32 浏览：1341

邮箱如何填写发信服务器发布：2025-10-20 07:45:27 浏览：551

shell脚本入门案例发布：2025-10-20 07:44:45 浏览：447

怎么上传照片浏览上传发布：2025-10-20 07:44:03 浏览：1115

python股票数据获取发布：2025-10-20 07:39:44 浏览：1107

加密防采集

与加密防采集相关的资讯