pythonscan

发布时间: 2022-05-16 23:22:44

❶ 在python中range怎么用

range函数原型：range（start， end， scan)

参数含义：

start:计数的开始位置，默认是从0开始。

end: 计数的结束位置

scan：每次跳跃的间距，默认为1。

range()函数内只有一个参数，则表示会产生从0开始计数到输入参数（前一位整数）结束的整数列表
当range()函数传入两个参数时，则将第一个参数做为起始位，第二个参数为结束位
当range()函数内填入第三个参数时，第三个参数表示递增或递减值，默认为1

❷ 如何使用Python工具分析风险数据

1、引入工具–加载数据分析包
启动IPython notebook，加载运行环境：
%matplotlib inline
import pandas as pd
from datetime import timedelta, datetime
import matplotlib.pyplot as plt
import numpy as np
2、数据准备
俗话说: 巧妇难为无米之炊。小安分析的数据主要是用户使用代理IP访问日志记录信息，要分析的原始数据以CSV的形式存储。这里首先要介绍到pandas.read_csv这个常用的方法，它将数据读入DataFrame
analysis_data = pd.read_csv('./honeypot_data.csv')
对的, 一行代码就可以将全部数据读到一个二维的表结构DataFrame变量，感觉很简单有木有啊!!!当然了用Pandas提供的IO工具你也可以将大文件分块读取，再此小安测试了一下性能，完整加载约21530000万条数据也大概只需要90秒左右，性能还是相当不错。
3、数据管窥
一般来讲，分析数据之前我们首先要对数据有一个大体上的了解，比如数据总量有多少，数据有哪些变量，数据变量的分布情况，数据重复情况，数据缺失情况，数据中异常值初步观测等等。下面小安带小伙伴们一起来管窥管窥这些数据。
使用shape方法查看数据行数及列数
analysis_data.shape
Out: (21524530, 22) #这是有22个维度，共计21524530条数据记的DataFrame
使用head()方法默认查看前5行数据，另外还有tail()方法是默认查看后5行,当然可以输入参数来查看自定义行数
analysis_data.head(10)
这里可以了解到我们数据记录有用户使用代理IP日期，代理header信息，代理访问域名，代理方法，源ip以及蜜罐节点信息等等。在此小安一定一定要告诉你，小安每次做数据分析时必定使用的方法–describe方法。pandas的describe()函数能对数据进行快速统计汇总：
对于数值类型数据，它会计算出每个变量：总个数，平均值，最大值，最小值，标准差，50%分位数等等;
非数值类型数据，该方法会给出变量的：非空值数量、unique数量(等同于数据库中distinct方法)、最大频数变量和最大频数。
由head()方法我们可以发现数据中包含了数值变量、非数值变量，我们首先可以利用dtypes方法查看DataFrame中各列的数据类型，用select_dtypes方法将数据按数据类型进行分类。然后，利用describe方法返回的统计值对数据有个初步的了解：
df.select_dtypes(include=['O']).describe()
df.select_dtypes(include=['float64']).describe()
简单的观察上面变量每一维度统计结果，我们可以了解到大家获取代理数据的长度平均1670个字节左右。同时，也能发现字段scanossubfp，scanscan_mode等存在空值等等信息。这样我们能对数据整体上有了一个大概了解。
4、数据清洗
由于源数据通常包含一些空值甚至空列，会影响数据分析的时间和效率，在预览了数据摘要后，需要对这些无效数据进行处理。
一般来说，移除一些空值数据可以使用dropna方法，当你使用该方法后，检查时发现 dropna() 之后几乎移除了所有行的数据，一查Pandas用户手册，原来不加参数的情况下， dropna() 会移除所有包含空值的行。
如果你只想移除全部为空值的列，需要加上 axis 和 how 两个参数：
analysis_data.dropna(axis=1, how='all')
另外，也可以通过dropna的参数subset移除指定列为空的数据，和设置thresh值取移除每非None数据个数小于thresh的行。
analysis_data.dropna(subset=['proxy_host', 'srcip'])
#移除proxy_host字段或srcip字段没有值的行
analysis_data.dropna(thresh=10)
#移除所有行字段中有值属性小于10的行
5、统计分析
再对数据中的一些信息有了初步了解过后，原始数据有22个变量。从分析目的出发，我将从原始数据中挑选出局部变量进行分析。这里就要给大家介绍pandas的数据切片方法loc。
loc([startrowindex:endrowindex,[‘timestampe’, ‘proxy_host’, ‘srcip’]])是pandas重要的切片方法，逗号前面是对行进行切片;逗号后的为列切片，也就是挑选要分析的变量。
如下，我这里选出日期，host和源IP字段——
analysis_data = analysis_data.loc([:, [‘timestampe’,'proxy_host','srcip']])
首先让我们来看看蜜罐代理每日使用数据量，我们将数据按日统计，了解每日数据量PV，并将结果画出趋势图。
daily_proxy_data = analysis_data[analysis_data.mole=='proxy']
daily_proxy_visited_count = daily_proxy_data.timestamp.value_counts().sort_index()
daily_proxy_visited_count.plot()
对数据列的丢弃，除无效值和需求规定之外，一些表自身的冗余列也需要在这个环节清理，比如说DataFrame中的index号、类型描述等，通过对这些数据的丢弃，从而生成新的数据，能使数据容量得到有效的缩减，进而提高计算效率。
由上图分析可知蜜罐代理使用量在6月5号，19-22号和25号这几天呈爆炸式增长。那么这几天数据有情况，不正常，具体是神马情况，不急，后面小安带大家一起来慢慢揪出来到底是那些人(源ip) 干了什么“坏事”。
进一步分析, 数据有异常后，再让我们来看看每天去重IP数据后量及其增长量。可以按天groupby后通过nunique()方法直接算出来每日去重IP数据量。
daily_proxy_data = analysis_data[analysis_data.mole=='proxy']
daily_proxy_visited_count = daily_proxy_data.groupby(['proxy_host']).srcip.nunique()
daily_proxy_visited_count.plot()
究竟大部分人(源ip)在干神马?干神马?干神马?让我们来看看被访问次数最多host的哪些，即同一个host关联的IP个数，为了方便我们只查看前10名热门host。
先选出host和ip字段，能过groupby方法来group 每个域名(host)，再对每个域名的ip访问里unique统计。
host_associate_ip = proxy_data.loc[:, ['proxy_host', 'srcip']]
grouped_host_ip = host_associate_ip.groupby(['proxy_host']).srcip.nunique()
print(grouped_host_ip.sort_values(ascending=False).head(10))
再细细去看大家到底做了啥——查看日志数据发现原来在收集像二手车价格，工人招聘等等信息。从热门host来看，总得来说大家使用代理主要还是获取网络，qq，Google，Bing这类妇孺皆知网站的信息。
下面再让我们来看看是谁用代理IP“干事”最多，也就是看看谁的IP访问不同host的个数最多。
host_associate_ip = proxy_data.loc[:, ['proxy_host', 'srcip']]
grouped_host_ip = host_associate_ip.groupby(['srcip'_host']).proxy_host.nunique()
print(grouped_host_ip.sort_values(ascending=False).head(10))
哦，发现目标IP为123..*.155的小伙子有大量访问记录, 进而查看日志，原来他在大量收集酒店信息。好了，这样我们就大概能知道谁在干什么了，再让我们来看看他们使用proxy持续时长，谁在长时间里使用proxy。代码如下——
这里不给大家细说代码了，只给出如下伪代码。
date_ip = analysis_data.loc[:,['timestamp','srcip']]
grouped_date_ip = date_ip.groupby(['timestamp', 'srcip'])
#计算每个源ip(srcip)的访问日期
all_srcip_ration_times = ...
#算出最长连续日期天数
ration_date_cnt = count_date(all_srcip_ration_times)
好了，到此我也就初略的知道那些人做什么，谁用代理时长最长等等问题额。取出ip = 80...38的用户使用代理ip访问数据日志，发现原来这个小伙子在长时间获取搜狐images。
蜜罐在全国各地部署多个节点，再让我们来看看每个源ip扫描蜜罐节点总个数，了解IP扫描节点覆盖率。结果见如下：
# 每个IP扫描的IP扫描节点总个数
node = df[df.mole=='scan']
node = node.loc[:,['srcip','origin_details']]
grouped_node_count = node.groupby(['srcip']).count()
print grouped_node_count.sort_values(['origin_details'], ascending=False).head(10)
由上述两表初步可知，一些结论：如源ip为182...205的用户长时间对蜜罐节点进行扫描，mark危险用户等等。

❸ python scapy 和 scrapy的区别

我这实验的结果是一个gethostbyaddr 2秒左右（没用多线程）不知楼主的情况怎么样另外，如果不是非python不可，可以考虑用nbtscan嘛，python的gethostbyaddr是用c写的lib也就是说再优化也优化不到哪去的了

❹ 如何使用python在hbase里进行模糊查询

注意：正则的写法可能不对，保证能过滤出数据，但是可能不会严格匹配，正则问题请自己解决；
#导入thrift和habse包
from thrift import Thrift
from thrift.transport import TSocket
from thrift.transport import TTransport
from thrift.protocol import TBinaryProtocol
from hbase import Hbase
from hbase.ttypes import *
#此处可以修改地址和端口
host = '192.168.1.1'
#默认端口为9090
port = 9090
#要查询的表名
table = 'table_name'
#定义一个过滤器，此为关键步骤
filter = "RowFilter(=,'regexstring:.3333.')" #此行原创：）
# Make socket
transport = TSocket.TSocket(host, port)
# Buffering is critical. Raw sockets are very slow
# 还可以用TFramedTransport,也是高效传输方式
transport = TTransport.TBufferedTransport(transport)
# Wrap in a protocol
#传输协议和传输过程是分离的，可以支持多协议
protocol = TBinaryProtocol.TBinaryProtocol(transport)
#客户端代表一个用户
client = Hbase.Client(protocol)
#打开连接
try:
transport.open()
scan.filterString=filter
scanner = client.scannerOpenWithScan(table, scan)
except Exception:
finally:
client.scannerClose(scan)
transport.close()
连接代码网上一搜一大堆，非原创，来源已不可考，非本人研究成果；
关键就是这个："RowFilter(=,'regexstring:.3333.')"
这个过滤器要写对，hbase有十几种内置的过滤器方法，有几种比较运算符和比较器，上面这个是正则方式，即'regexstring:.3333.'；
过滤器整个双引号里面的内容会通过thrift传给hbase服务端处理，下划线这部分正则要支持java的正则要求不然会报错，过滤器的用法官网有，网上也有些资料，但是坑比较多，这几天各种被坑//包括官方坑
Apache HBase

❺ 如何使用多线程python扫描二级子域名

日站没什么好办法了往往也会想到其二级域名，于是写了一个比较简陋的扫描二级域名的程序
速度一般般，不过如果线程开多了还是可以的
源程序（subdomain.py）：

#! /usr/bin/env python
#coding=utf-8
import threading , Queue, optparse, os
import pycurl, StringIO, msvcrt, socket

queue = Queue.Queue()

class ScanThread(threading.Thread):

def __init__(self, queue):
threading.Thread.__init__(self)
self.queue = queue

def run(self):
while 1:
p = self.queue.get()
if p is None:
break
try:
sub_domain = p+'.'+domain
crl = pycurl.Curl()
crl.fa = StringIO.StringIO()
crl.setopt(pycurl.URL,sub_domain)
crl.setopt(pycurl.VERBOSE,0)
crl.setopt(pycurl.FOLLOWLOCATION,1)
crl.setopt(pycurl.MAXREDIRS,5)
crl.setopt(pycurl.CONNECTTIMEOUT, 60)
crl.setopt(pycurl.TIMEOUT, 300)
crl.setopt(crl.WRITEFUNCTION,crl.fa.write)
try:
crl.perform()
ip=socket.gethostbyname(sub_domain)
print sub_domain, ip
content = sub_domain+' '+ip+'\n'
self.writefile(wfile, 'a+', content)
except:
pass
except:
print "error"
self.writefile('F:/py/Domain/log.txt', 'a+', p+'\n')

queue.task_done()

def writefile(self, path, type, content):
f = open(path, type)
f.write(content)
f.close

class ThreadGetKey(threading.Thread):
def run(self):
while 1:
try:
chr = msvcrt.getch()
if chr == 'q':
print "stopped by your action ( q )"
os._exit(1)
else:
continue
except:
os._exit(1)

# now starting...

def main():
parser = optparse.OptionParser('Usages: %prog -d <domain> -r <read> -w <write> -t <thread(s)>')
parser.add_option('-d',dest='domain',type='string',help='the url to query')
parser.add_option('-r',dest='read',type='string',help='the dic file to read default=F:/py/Domain/dic.txt', default='F:/py/Domain/dic.txt')
parser.add_option('-w',dest='write',type='string',help='save the reasults to the catalogue \
default=F:/py/Domain/results.txt', default='F:/py/Domain/results.txt')
parser.add_option('-t',dest='threads',type='int',help='set the thread(s) default=10',default=10)
(options,args) = parser.parse_args()
if options.domain == None:
使用方法：
python subdomain.py -d .com -r dic.txt -w results.txt -t 50
主要影响速度的是这一块代码：

try:
crl.perform()
ip=socket.gethostbyname(sub_domain)
print sub_domain, ip
content = sub_domain+' '+ip+'\n'
self.writefile(wfile, 'a+', content)
except:
pass

主要是一开始理解错了，以为二级域名不存在和某个网页不存在一样会返回404代码，于是想到用返回码来判断。
结果后来程序一直出错，才发现当二级域名不存在的时候返回的是“未找到服务器”，根本不存在返回码，于是只能使用一个try来调试错误，主要速度也就被这里影响了。当然线程开多了也是可以看到刷屏效果的~~

❻ python中的for i in range怎么用

先要知道rang的作用。range(2,4),其代表[2,3,4]
其实Python 的 for i in range (m,n)
相当于 C++/Java/C# 里面的 for (int i = m; i < n; i++)
比如range(1,10)

❼ python 急救！在线等

你将leixicon.scan改成leixicon().scan

再试试应该可以了。可能是类没有实例化。

❽ 如何扫描网络中的端口 python

>>>fromsocketimportsocket
>>>defscan_address(host,port):
	s=socket()
	s.settimeout(3)
	try:
		s.connect((host,port))
	except:
		returnFalse
	s.close()
	returnTrue

>>>scan_address('localhost',5432)
True

阅读全文

热点内容

php办公系统发布：2025-07-19 03:06:35 浏览：900

奥德赛买什么配置出去改装发布：2025-07-19 02:53:18 浏览：42

请与网络管理员联系请求访问权限发布：2025-07-19 02:37:34 浏览：189

ipad上b站缓存视频怎么下载发布：2025-07-19 02:32:17 浏览：844

phpcgi与phpfpm 发布：2025-07-19 02:05:19 浏览：527

捷达方向机安全登录密码是多少发布：2025-07-19 00:57:37 浏览：694

夜魔迅雷下载ftp 发布：2025-07-19 00:39:29 浏览：99

增值税票安全接入服务器地址发布：2025-07-19 00:20:45 浏览：486

solidworkspcb服务器地址发布：2025-07-18 22:50:35 浏览：823

怎么在堆叠交换机里配置vlan 发布：2025-07-18 22:42:35 浏览：630

pythonscan

与pythonscan相关的资讯