20行脚本
① 一个txt文档,已经用结巴分词分完词,怎么用python工具对这个分完词的文档进行计算统计词频,求脚本,非
#!/usr/bin/envpython3
#-*-coding:utf-8-*-
importos,random
#假设要读取文件名为aa,位于当前路径
filename='aa.txt'
dirname=os.getcwd()
f_n=os.path.join(dirname,filename)
#注释掉的程序段,用于测试脚本,它生成20行数据,每行有1-20随机个数字,每个数字随机1-20
'''
test=''
foriinrange(20):
forjinrange(random.randint(1,20)):
test+=str(random.randint(1,20))+''
test+=' '
withopen(f_n,'w')aswf:
wf.write(test)
'''
withopen(f_n)asf:
s=f.readlines()
#将每一行数据去掉首尾的空格和换行符,然后用空格分割,再组成一维列表
words=[]
forlineins:
words.extend(line.strip().split(''))
#格式化要输出的每行数据,首尾各占8位,中间占18位
defgeshi(a,b,c):
returnalignment(str(a))+alignment(str(b),18)+alignment(str(c))+' '
#中英文混合对齐,参考http://bbs.fishc.com/thread-67465-1-1.html,二楼
#汉字与字母格式化占位format对齐出错对不齐汉字对齐数字汉字对齐字母中文对齐英文
#alignment函数用于英汉混合对齐、汉字英文对齐、汉英对齐、中英对齐
defalignment(str1,space=8,align='left'):
length=len(str1.encode('gb2312'))
space=space-lengthifspace>=lengthelse0
ifalignin['left','l','L','Left','LEFT']:
str1=str1+''*space
elifalignin['right','r','R','Right','RIGHT']:
str1=''*space+str1
elifalignin['center','c','C','Center','CENTER','centre']:
str1=''*(space//2)+str1+''*(space-space//2)
returnstr1
w_s=geshi('序号','词','频率')
#由(词,频率)元组构成列表,先按频率降序排序,再按词升序排序,多级排序,一组升,一组降,高级sorted
wordcount=sorted([(w,words.count(w))forwinset(words)],key=lambdal:(-l[1],l[0]))
#要输出的数据,每一行由:序号(占8位)词(占20位)频率(占8位)+' '构成,序号=List.index(element)+1
for(w,c)inwordcount:
w_s+=geshi(wordcount.index((w,c))+1,w,c)
#将统计结果写入文件ar.txt中
writefile='ar.txt'
w_n=os.path.join(dirname,writefile)
withopen(w_n,'w')aswf:
wf.write(w_s)
② 趣味干货 | 记事本10大奇技淫巧(教你30秒写脚本整蛊同事
揭秘记事本的无限可能,10个让你惊艳的小技巧
Windows记事本,这看似平凡的文本编辑工具,却隐藏着超越其表象的实用与趣味。作为程序员和作家的得力助手,记事本的潜力远超你的想象。接下来,让我们一起探索这10个令人惊叹的记事本奇技淫巧,让你在30秒内编写脚本,轻松整蛊同事。
1. 键盘跑马灯
只需创建一个.vbs文件,简单的代码编写后,双击即可在屏幕上播放动态字幕,犹如跑马灯般炫酷。
2. 快捷直达
不再需要繁琐的路径查找,只需Win + R键,输入 "Notepad" 或自定义快捷键,记事本即刻为你打开。
3. 文件夹魔法
在记事本中输入 "md" 加文件名,转换成.bat文件执行,批量新建文件夹如魔法师般便捷。
4. 时间印记
在记事本开头添加".LOG",每次打开都会自动记录时间,工作日志从未如此简单。
5. 整蛊艺术
编写自定义错误弹框,利用循环技术,让错误信息持续显示,增添一份趣味。
6. 创意无限
弹框内容不再是枯燥的代码,而是能编故事的工具,只需调整【0+16】的数值,弹窗样式随心所欲。
7. 隐藏启动菜单
将快捷方式藏入启动菜单,开机瞬间启动自制错误,记事本也能玩出黑客级的开局。
8. 绘画新天地
记事本并非文字的专属,利用字符生成工具,你可以绘制出意想不到的图案,解锁创意新维度。
9. 语音助手
语音朗读功能轻松实现,几行代码就能唤起自动朗读,提高工作效率。
10. 模拟游戏
20行左右的代码,就能模拟黑客入侵或猜数字游戏,让记事本成为娱乐新宠。
10月更新,记事本将迎来状态栏功能的增强,支持自动换行,效率提升不止一点。更多神乎其技的代码等待你去发现和实践。
想要获取这10大技巧的源文件,包括.txt、.bat、.vbs格式?只需回复公众号的神秘代码,链接便在手。加入极客羊工作室,一起探索科技与创意的无限可能。
我们的足迹遍布微信公众号“极客羊”,微博、B站和今日头条,期待你的关注与互动,共享更多精彩内容。
③ Python为什么叫爬虫
爬虫一般是指网络资源的抓取,由于Python的脚本特性,易于配置对字符的处理非常灵活,Python有丰富的网络抓取模块,因此两者经常联系在一起Python就被叫作爬虫。爬虫可以抓取某个网站或者某个应用的内容提取有用的价值信息。还可以模拟用户在浏览器或者app应用上的操作行为,实现程序自动化。
Python为什么叫爬虫?
Python作为一门编程语言而言纯粹的自由软件,以简洁清晰的语法和强制使用空白符进行语句缩进的特点从而深受程序员的喜爱。用不同编程语言完成一个任务:c语言一共要写1000行代码;java要写100行;Python则只需要写20行的代码。若使用Python来完成编程任务编写代码量更少,代码简洁简短且可读性更强,一个团队进行开发的时候编写代码效率会更快,开发效率高让工作变得更加高效。
Python非常适合开发网络爬虫的编程语言,相比于其他静态编程语言,Python抓取网页文档的接口更简洁;相比于其他动态脚本语言,Python的urllib2包提供了较为完整的访问网页文档的API。Python中有优秀的第三方包可以高效实现网页抓取,并可用极短的代码完成网页的标签过滤功能。
Python爬虫的构架组成:
爬虫构架
1、URL管理器:管理待爬取的url集合和已爬取的url集合,传送待爬取的url给网页下载器;
2、网页下载器:爬取url对应的网页,存储成字符串,传送给网页解析器;
3、网页解析器:解析出有价值的数据,存储下来,同时补充url到URL管理器。
Python的工作流程则:
Python爬虫通过URL管理器,判断是否有待爬URL,如果有待爬URL,通过调度器进行传递给下载器,下载URL内容,并通过调度器传送给解析器,解析URL内容,并将价值数据和新URL列表通过调度器传递给应用程序,并输出价值信息的过程。
Python是一门非常适合开发网络爬虫的编程语言,提供了如urllib、re、json、pyquery等模块,同时又有很多成型框架,如Scrapy框架、PySpider爬虫系统等。代码十分的简洁方便,是新手学习网络爬虫首选编程语言。爬虫是指网络资源的抓取,因为Python的脚本特性,Python易于配置,对字符的处理也非常灵活,加上Python有丰富的网络抓取模块,所以两者经常联系在一起,Python语言更适合新手学习。