20行腳本
① 一個txt文檔,已經用結巴分詞分完詞,怎麼用python工具對這個分完詞的文檔進行計算統計詞頻,求腳本,非
#!/usr/bin/envpython3
#-*-coding:utf-8-*-
importos,random
#假設要讀取文件名為aa,位於當前路徑
filename='aa.txt'
dirname=os.getcwd()
f_n=os.path.join(dirname,filename)
#注釋掉的程序段,用於測試腳本,它生成20行數據,每行有1-20隨機個數字,每個數字隨機1-20
'''
test=''
foriinrange(20):
forjinrange(random.randint(1,20)):
test+=str(random.randint(1,20))+''
test+=' '
withopen(f_n,'w')aswf:
wf.write(test)
'''
withopen(f_n)asf:
s=f.readlines()
#將每一行數據去掉首尾的空格和換行符,然後用空格分割,再組成一維列表
words=[]
forlineins:
words.extend(line.strip().split(''))
#格式化要輸出的每行數據,首尾各佔8位,中間佔18位
defgeshi(a,b,c):
returnalignment(str(a))+alignment(str(b),18)+alignment(str(c))+' '
#中英文混合對齊,參考http://bbs.fishc.com/thread-67465-1-1.html,二樓
#漢字與字母格式化佔位format對齊出錯對不齊漢字對齊數字漢字對齊字母中文對齊英文
#alignment函數用於英漢混合對齊、漢字英文對齊、漢英對齊、中英對齊
defalignment(str1,space=8,align='left'):
length=len(str1.encode('gb2312'))
space=space-lengthifspace>=lengthelse0
ifalignin['left','l','L','Left','LEFT']:
str1=str1+''*space
elifalignin['right','r','R','Right','RIGHT']:
str1=''*space+str1
elifalignin['center','c','C','Center','CENTER','centre']:
str1=''*(space//2)+str1+''*(space-space//2)
returnstr1
w_s=geshi('序號','詞','頻率')
#由(詞,頻率)元組構成列表,先按頻率降序排序,再按詞升序排序,多級排序,一組升,一組降,高級sorted
wordcount=sorted([(w,words.count(w))forwinset(words)],key=lambdal:(-l[1],l[0]))
#要輸出的數據,每一行由:序號(佔8位)詞(佔20位)頻率(佔8位)+' '構成,序號=List.index(element)+1
for(w,c)inwordcount:
w_s+=geshi(wordcount.index((w,c))+1,w,c)
#將統計結果寫入文件ar.txt中
writefile='ar.txt'
w_n=os.path.join(dirname,writefile)
withopen(w_n,'w')aswf:
wf.write(w_s)
② 趣味干貨 | 記事本10大奇技淫巧(教你30秒寫腳本整蠱同事
揭秘記事本的無限可能,10個讓你驚艷的小技巧
Windows記事本,這看似平凡的文本編輯工具,卻隱藏著超越其表象的實用與趣味。作為程序員和作家的得力助手,記事本的潛力遠超你的想像。接下來,讓我們一起探索這10個令人驚嘆的記事本奇技淫巧,讓你在30秒內編寫腳本,輕松整蠱同事。
1. 鍵盤跑馬燈
只需創建一個.vbs文件,簡單的代碼編寫後,雙擊即可在屏幕上播放動態字幕,猶如跑馬燈般炫酷。
2. 快捷直達
不再需要繁瑣的路徑查找,只需Win + R鍵,輸入 "Notepad" 或自定義快捷鍵,記事本即刻為你打開。
3. 文件夾魔法
在記事本中輸入 "md" 加文件名,轉換成.bat文件執行,批量新建文件夾如魔法師般便捷。
4. 時間印記
在記事本開頭添加".LOG",每次打開都會自動記錄時間,工作日誌從未如此簡單。
5. 整蠱藝術
編寫自定義錯誤彈框,利用循環技術,讓錯誤信息持續顯示,增添一份趣味。
6. 創意無限
彈框內容不再是枯燥的代碼,而是能編故事的工具,只需調整【0+16】的數值,彈窗樣式隨心所欲。
7. 隱藏啟動菜單
將快捷方式藏入啟動菜單,開機瞬間啟動自製錯誤,記事本也能玩出黑客級的開局。
8. 繪畫新天地
記事本並非文字的專屬,利用字元生成工具,你可以繪制出意想不到的圖案,解鎖創意新維度。
9. 語音助手
語音朗讀功能輕松實現,幾行代碼就能喚起自動朗讀,提高工作效率。
10. 模擬游戲
20行左右的代碼,就能模擬黑客入侵或猜數字游戲,讓記事本成為娛樂新寵。
10月更新,記事本將迎來狀態欄功能的增強,支持自動換行,效率提升不止一點。更多神乎其技的代碼等待你去發現和實踐。
想要獲取這10大技巧的源文件,包括.txt、.bat、.vbs格式?只需回復公眾號的神秘代碼,鏈接便在手。加入極客羊工作室,一起探索科技與創意的無限可能。
我們的足跡遍布微信公眾號「極客羊」,微博、B站和今日頭條,期待你的關注與互動,共享更多精彩內容。
③ Python為什麼叫爬蟲
爬蟲一般是指網路資源的抓取,由於Python的腳本特性,易於配置對字元的處理非常靈活,Python有豐富的網路抓取模塊,因此兩者經常聯系在一起Python就被叫作爬蟲。爬蟲可以抓取某個網站或者某個應用的內容提取有用的價值信息。還可以模擬用戶在瀏覽器或者app應用上的操作行為,實現程序自動化。
Python為什麼叫爬蟲?
Python作為一門編程語言而言純粹的自由軟體,以簡潔清晰的語法和強制使用空白符進行語句縮進的特點從而深受程序員的喜愛。用不同編程語言完成一個任務:c語言一共要寫1000行代碼;java要寫100行;Python則只需要寫20行的代碼。若使用Python來完成編程任務編寫代碼量更少,代碼簡潔簡短且可讀性更強,一個團隊進行開發的時候編寫代碼效率會更快,開發效率高讓工作變得更加高效。
Python非常適合開發網路爬蟲的編程語言,相比於其他靜態編程語言,Python抓取網頁文檔的介面更簡潔;相比於其他動態腳本語言,Python的urllib2包提供了較為完整的訪問網頁文檔的API。Python中有優秀的第三方包可以高效實現網頁抓取,並可用極短的代碼完成網頁的標簽過濾功能。
Python爬蟲的構架組成:
爬蟲構架
1、URL管理器:管理待爬取的url集合和已爬取的url集合,傳送待爬取的url給網頁下載器;
2、網頁下載器:爬取url對應的網頁,存儲成字元串,傳送給網頁解析器;
3、網頁解析器:解析出有價值的數據,存儲下來,同時補充url到URL管理器。
Python的工作流程則:
Python爬蟲通過URL管理器,判斷是否有待爬URL,如果有待爬URL,通過調度器進行傳遞給下載器,下載URL內容,並通過調度器傳送給解析器,解析URL內容,並將價值數據和新URL列表通過調度器傳遞給應用程序,並輸出價值信息的過程。
Python是一門非常適合開發網路爬蟲的編程語言,提供了如urllib、re、json、pyquery等模塊,同時又有很多成型框架,如Scrapy框架、PySpider爬蟲系統等。代碼十分的簡潔方便,是新手學習網路爬蟲首選編程語言。爬蟲是指網路資源的抓取,因為Python的腳本特性,Python易於配置,對字元的處理也非常靈活,加上Python有豐富的網路抓取模塊,所以兩者經常聯系在一起,Python語言更適合新手學習。