pythonextract
『壹』 python 不知道list裡面有多少個元素 怎麼提取出來
# 獲取到症狀
item['symptons'] = li.xpath('div/p/a/text()').extract()
#從列表中取出元素,
str=''
for s in item['symptons']:
str=str+s+' '
item['symptons']=str
print('#############')
print(item['symptons'])
(1)pythonextract擴展閱讀
序列是Python中最基本的數據結構。序列中的每個元素都分配一個數字 - 它的位置,或索引,第一個索引是0,第二個索引是1,依此類推。
Python有6個序列的內置類型,但最常見的是列表和元組。
序列都可以進行的操作包括索引,切片,加,乘,檢查成員。
此外,Python已經內置確定序列的長度以及確定最大和最小的元素的方法。
列表是最常用的Python數據類型,它可以作為一個方括弧內的逗號分隔值出現。
列表的數據項不需要具有相同的類型
創建一個列表,只要把逗號分隔的不同的數據項使用方括弧括起來即可。如下所示:
list1 = ['physics', 'chemistry', 1997, 2000]
list2 = [1, 2, 3, 4, 5 ]list3 = ["a", "b", "c", "d"]
『貳』 Python打開zip文件
Zip文件格式是通用的文檔壓縮標准。自1.6版本起,Python中zipfile模塊能夠直接處理zip文件里的數據,例如需要將對應目錄或多個文件打包或壓縮成zip格式,或者需要查看一個zip格式的歸檔文件中部分或者所有文件同時避免講這些文件展開到磁碟上。使用ZipFile類來操作zip文件。
創建一個ZipFile對象,表示一個zip文件。
參數file:文件的路徑或者類似文件對象
參數mode:讀"r",寫入"w",添加"a"
參數compression: ZIP_STORED(無壓縮),ZIP_DEFLATED(壓縮,需要zlib支持)
參數allowZip64:默認情況下報錯,將其設為True,ZipFile將用ZIP64擴展進行創建文件。
下面示例演示了讀取一個zip文檔,將文檔里所有文件解壓到名為"work"的文件里。
import zipfile
if __name__ == "__main__":
zFile = zipfile.ZipFile("F:\\txt.zip","r")
#ZipFile.namelist():獲取ZIP文檔內所有文件的名稱列表
for fileM in zFile.namelist():
zFile.extract(fileM,"F:\\work")
zFile.close()
read(self,name,pwd=None)獲取ZIP文檔內文件的二進制數據
下面例子演示了使用read方法獲取ZIP文檔中mango.txt文件的數據,並寫到.txt文件中
import zipfile
if __name__ == "__main__":
zipFile = zipfile.ZipFile('F:\\test.zip','r')
data = zipFile.read("mango.txt")
(lambda f,d:(f.write(d),f.close()))(open("F:\\.txt,'w"),data)
zipFile.close()
write(self, filename, arcname=None, compress_type=None)將指定文件寫入ZIP文檔中
參數filename:需要寫入文件的路徑
參數arcname:文件寫入ZIP文檔後保存的文件名
參數compress_type:壓縮方法(ZIP_STORED或ZIP_DEFAULED)
下面離子演示了創建一個zip文檔,將test.docx文件寫入壓縮文檔裡面。
import zipfile
if __name__ == "__main__":
zipFile = zipfile.ZipFile("F:\\test.zip","w")
zipFile.write("F:\\test.docx","ok.docx",zipfile.ZIP_DEFLATED)
zipFile.close()
getinfo(name)返回一個ZipInfo類的對象。
import zipfile
if __name__ == "__main__":
zipInfo = zipFile.getinfo(ok.docx)
print("filename:",zipInfo.filename)
print("date_time:",zipInfo.date_time)
常用函數
關閉歸檔文件,你必須在退出程序之前調用close()否則將不會寫入關鍵記錄數據。
返回一個ZipInfo對象,其中包含有關歸檔成員name的信息。針對一個目前並不包含於歸檔中的名稱調用getinfo()將會引發KeyError。
返回一個列表,其中包含每個歸檔成員的ZipInfo對象。如果是打開一個現有歸檔則這些對象的排列順序與他們對於條目在磁碟上的實際ZIP文件中的順序一致。
返回按名稱排列的歸檔成員列表。
以二進制文件類對象的形式訪一個歸檔成員。name可以是歸檔內某個文件的名稱也可以是某個ZipInfo對象。如果包含了mode形參,則它必須為"r"(默認值)或"w"。pwd為用於解密已加密Zip文件的密碼。
open()也是一個上下文 管理器,因此支持with語句:
with ZipFile('spam.zip') as myzip:
with myzip.open('eggs.txt') as myfile:
print(myfile.read())
如果mode為「r」則文件類對象(ZipExtFile)將只讀並且提供下列方法:read(),readline(),readlines(),seek(),tell(),__iter__(),__next__()。這些對象可獨立於ZipFile進行操作。
如果mode='w'則返回一個可寫入的文件句柄,它將支持write()方法。當一個可寫入的文件句柄被打開時,嘗試讀寫ZIP文件中的其他文件將會引發ValueError。
當寫入一個文件時,如果文件大小不能預先確定但是可能超過2GiB,可傳入force_zip64=True以確保標頭格式能夠支持超大文件。如果文件大小可以預先確定,則在構造ZipInfo對象時應設置file_size,並將其作name形參。
從歸檔中提取一個成員放入當前工作目錄;member必須為成員的完整名稱或ZipInfo對象。成員的文件信息會盡可能精確地被提取。path指定一個要提取到的不同目錄。member可以是一個文件名或ZipInfo對象。pwd是用於解密文件的密碼。返回所創建的經正規化的路徑(對應於目錄或新文件)。
從歸檔中提取出所有成員放入當前工作目錄。path指定一個要提取到的不同的目錄。members為可選項且必須為namelist()所返回列表的一個子集。pwd是用於解密文件的密碼。
警告:絕不要未經預先檢驗就從不可靠的源中提取歸檔文件。 這樣有可能在 path 之外創建文件,例如某些成員具有以 "/" 開始的文件名或帶有兩個點號 ".." 的文件名。 此模塊會嘗試防止這種情況。 參見 extract() 的注釋。
將歸檔是目錄表列印到sys.stdout.
設置pwd為用於提取已加密文件的默認密碼。
返回歸檔中文件name的位元組數據。name是歸檔中文件的名稱,或是一個ZipInfo對象。歸檔必須以讀取或追加方式打開。pwd為用於已加密文件的密碼,並且如果指定該參數則它將覆蓋通過setpassword()設置的默認密碼。 on a ZipFile that uses a compression method 在使用 ZIP_STORED , ZIP_DEFLATED , ZIP_BZIP2 或 ZIP_LZMA 以外的壓縮方法的 ZipFile 上調用 read() 將引發 NotImplementedError 。 如果相應的壓縮模塊不可用也會引發錯誤。
讀取歸檔中的所有文件並檢查他們的CRC和文件頭。返回第一個已損壞文件的名稱,在其他情況下則返回None。
將名為filename的文件寫入歸檔,給予的歸檔名為arcname(默認情況下將與filename一致,但是不帶驅動器盤符並會移除開頭的路徑分隔符)。compress_type如果給出,它將覆蓋作為構造器compression形參對於新條目所給出的值。類似地,compresslevel如果給出也將覆蓋構造器。歸檔必須使用"w","x「或"a"模式打開。
將一個文件寫入歸檔。 內容為 data ,它可以是一個 str 或 bytes 的實例;如果是 str ,則會先使用 UTF-8 進行編碼。 zinfo_or_arcname 可以是它在歸檔中將被給予的名稱,或者是 ZipInfo 的實例。 如果它是一個實例,則至少必須給定文件名、日期和時間。 如果它是一個名稱,則日期和時間會被設為當前日期和時間。 歸檔必須以 'w', 'x' 或 'a' 模式打開。
ZIP文件的名稱
『叄』 如何用Python爬取搜索引擎的結果
我選取的是爬取網路知道的html 作為我的搜索源數據,目前先打算做網頁標題的搜索,選用了 Python 的 scrapy 庫來對網頁進行爬取,爬取網頁的標題,url,以及html,用sqlist3來對爬取的數據源進行管理。
爬取的過程是一個深度優先的過程,設定四個起始 url ,然後維護一個資料庫,資料庫中有兩個表,一個 infoLib,其中存儲了爬取的主要信息:標題,url ,html;另一個表為urlLib,存儲已經爬取的url,是一個輔助表,在我們爬取每個網頁前,需要先判斷該網頁是否已爬過(是否存在urlLib中)。在數據存儲的過程中,使用了SQL的少量語法,由於我之前學過 MySQL ,這塊處理起來比較駕輕就熟。
深度優先的網頁爬取方案是:給定初始 url,爬取這個網頁中所有 url,繼續對網頁中的 url 遞歸爬取。代碼逐段解析在下面,方便自己以後回顧。
1.建一個 scrapy 工程:
關於建工程,可以參看這個scrapy入門教程,通過運行:
[python] view plain
scrapy startproject ***
在當前目錄下建一個scrapy 的項目,然後在 spiders 的子目錄下建立一個 .py文件,該文件即是爬蟲的主要文件,注意:其中該文件的名字不能與該工程的名字相同,否則,之後調用跑這個爬蟲的時候將會出現錯誤,見ImportError。
2.具體寫.py文件:
[python] view plain
import scrapy
from scrapy import Request
import sqlite3
class rsSpider(scrapy.spiders.Spider): #該類繼承自 scrapy 中的 spider
name = "" #將該爬蟲命名為 「知道」,在執行爬蟲時對應指令將為: scrapy crawl
#download_delay = 1 #只是用於控制爬蟲速度的,1s/次,可以用來對付反爬蟲
allowed_domains = ["..com"] #允許爬取的作用域
url_first = 'http://..com/question/' #用於之後解析域名用的短字元串
start_urls = ["http://..com/question/647795152324593805.html", #python
"http://..com/question/23976256.html", #database
"http://..com/question/336615223.html", #C++
"http://..com/question/251232779.html", #operator system
"http://..com/question/137965104.html" #Unix programing
] #定義初始的 url ,有五類知道起始網頁
#add database
connDataBase = sqlite3.connect(".db") #連接到資料庫「.db」
cDataBase = connDataBase.cursor() #設置定位指針
cDataBase.execute('''''CREATE TABLE IF NOT EXISTS infoLib
(id INTEGER PRIMARY KEY AUTOINCREMENT,name text,url text,html text)''')
#通過定位指針操作資料庫,若.db中 infoLib表不存在,則建立該表,其中主鍵是自增的 id(用於引擎的docId),下一列是文章的標題,然後是url,最後是html
#url dataBase
cDataBase.execute('''''CREATE TABLE IF NOT EXISTS urlLib
(url text PRIMARY KEY)''')
#通過定位指針操作資料庫,若.db中urlLib表不存在,則建立該表,其中只存了 url,保存已經爬過的url,之所以再建一個表,是猜測表的主鍵應該使用哈希表存儲的,查詢速度較快,此處其實也可以用一個外鍵將兩個表關聯起來
2. .py文件中的parse函數:
.py文件中的parse函數將具體處理url返回的 response,進行解析,具體代碼中說明:
[python] view plain
def parse(self,response):
pageName = response.xpath('//title/text()').extract()[0] #解析爬取網頁中的名稱
pageUrl = response.xpath("//head/link").re('href="(.*?)"')[0] #解析爬取網頁的 url,並不是直接使用函數獲取,那樣會夾雜亂碼
pageHtml = response.xpath("//html").extract()[0] #獲取網頁html
# judge whether pageUrl in cUrl
if pageUrl in self.start_urls:
#若當前url 是 start_url 中以一員。進行該判斷的原因是,我們對重復的 start_url 中的網址將仍然進行爬取,而對非 start_url 中的曾經爬過的網頁將不再爬取
self.cDataBase.execute('SELECT * FROM urlLib WHERE url = (?)',(pageUrl,))
lines = self.cDataBase.fetchall()
if len(lines): #若當前Url已經爬過
pass #則不再在資料庫中添加信息,只是由其為跟繼續往下爬
else: #否則,將信息爬入資料庫
self.cDataBase.execute('INSERT INTO urlLib (url) VALUES (?)',(pageUrl,))
self.cDataBase.execute("INSERT INTO infoLib (name,url,html) VALUES (?,?,?)",(pageName,pageUrl,pageHtml))
else: #此時進入的非 url 網頁一定是沒有爬取過的(因為深入start_url之後的網頁都會先進行判斷,在爬取,在下面的for循環中判斷)
self.cDataBase.execute('INSERT INTO urlLib (url) VALUES (?)',(pageUrl,))
self.cDataBase.execute("INSERT INTO infoLib (name,url,html) VALUES (?,?,?)",(pageName,pageUrl,pageHtml))
self.connDataBase.commit() #保存資料庫的更新
print "-----------------------------------------------" #輸出提示信息,沒啥用
for sel in response.xpath('//ul/li/a').re('href="(/question/.*?.html)'): #抓出所有該網頁的延伸網頁,進行判斷並對未爬過的網頁進行爬取
sel = "http://..com" + sel #解析出延伸網頁的url
self.cDataBase.execute('SELECT * FROM urlLib WHERE url = (?)',(sel,)) #判斷該網頁是否已在資料庫中
lines = self.cDataBase.fetchall()
if len(lines) == 0: #若不在,則對其繼續進行爬取
yield Request(url = sel, callback=self.parse)
『肆』 python必學英語單詞
computational adj. 計算的,電腦的
mode n. 模式
primitive n. 原始、基元,是後續操作的基礎
gigabyte n. 千兆位元組,是數據單位
storage n. 儲存體, 倉庫
retrieve n. 檢索,恢復
algorithm n. 演算法
accomplish vt. 完成
scheme n. 方案, 計劃, v. 設計, 體系, 結構,
compute vt. 計算
code n. 碼,密碼 vt. 把…編碼
halt v 停止
computation n. 計算,計算方法,計算結果
knowledge n. 知識,了解
declarative adj. 說明的, 陳述的 declarative knowledge 陳述性知識
imperative adj. 命令式的,互動的 imperative knowledge 互動性知識
recipe n. 掛起,暫停
evaluate vt. 評估,評價
square root 平方根 the square root of a number x x的平方根
dece vt. 演繹,推斷
capture vt. 採集,描繪,製作
fix vt. &vi.修理,安裝
calculator n. 計算器
decode v. 解碼, 譯解 [計算機] 解碼
enigma n. 謎
manipulate v. [計算機] 操作
instruction n. 指令,說明
set n.集合 predefined set 預設集合
arithmetic n. 算術,運算
store n. (在計算機里)存貯;記憶
test n.vt. 測試
execute vt. [計算機] 執行
source n. 來源 source code 源代碼
sequence n. 序列, 一系列, 順序
architecture n.體系結構
abstract n.簡化,抽象
computable adj. 可計算的
mechanism n. 機制
syntax n. 語法 (規范代碼的結構,成分和順序上正確)
02
static adj. 靜態的
ambiguous adj. 歧義的
unpredictable adj. 不可預知的
intend v. 打算 (打算使之成為。。。)
crash n 崩潰,停止運行
algorithmic adj.[計]演算法的,規則系統的
process n.過程,進程,步驟
programming language n.程序設計語言
checker n. 檢驗器, 檢查員
internal adj. 內部的
interpreter n. 解釋器
compiler n. [計算機]編譯器, 編譯程序
invert v. 使反向;invert a matrix反轉矩陣
abstraction n. 抽象, 參數化
converter n. 轉換器 =convertor
script n. 腳本
definition n. 清晰度
command n. [計算機]指令;命令
shell n.[計算機] DOS命令 ,殼
instruct [計算機] 指示
object n. 對象
type n.類型
scalar 標量(的)
represent vt. 代表
integer [計算機] 整數
int 整型
float n. 浮點型
const abbr. 常數(=constant)
expression 表達式
denote vt. 表示,意味著
sum n. 總數(計) vi. 總計
difference n. 差
proct n. 乘積
division n. 除法
quotient n. 商
remainder n. 余數,余
power n.次方,冪
operator n. 運算符
precedence n. 優先
truncate vt. 舍位
indicate v.說明,指示
decimal n.十進制
arbitrary adj. 任意的
variable adj. 可變的 n. 變數
value n. 值
assignment n. 賦值
bind vt. 綁定
invoke [計算機] 調用
binding n.綁定關系
rebound n. 回跳,反彈
diagram n. 圖解,關系圖
transcript n. 抄本,腳本
compound n. 混合物,復合詞
literal [計算機] 文字的,文本
quote n. 引用 quotes引號
character n. 字元
extract [計算機] 提取、取值、查看
index n.索引
boundary n. 分界線, 邊界boundaries 邊界
slice n. 薄的切片,一部份,鍋鏟 vt. 切成薄片,大幅降低
essentially adv. 基本上
『伍』 python提取excel表中的數據兩列
1、首先打開excel表格,在單元格中輸入兩列數據,需要將這兩列數據進行比對相同數據。
2、然後在C1單元格中輸入公式:=VLOOKUP(B1,A:A,1,0),意思是比對B1單元格中A列中是否有相同數據。
3、點擊回車,即可將公式的計算結果顯示出來,可以看到C1中顯示的是B1在A列中找到的相同數據。
4、將公式向下填充,即可發現C列中顯示出的數字即為有相同數據的,顯示「#N/A」的為沒有找到匹配數據的。
5、將C1-C4中的數據進行復制並粘貼成數值,即可完成相同數據的提取操作。
在實際研究中,我們經常需要獲取大量數據,而這些數據很大一部分以pdf表格的形式呈現,如公司年報、發行上市公告等。面對如此多的數據表格,採用手工復制黏貼的方式顯然並不可取。那麼如何才能高效提取出pdf文件中的表格數據呢?
Python提供了許多可用於pdf表格識別的庫,如camelot、tabula、pdfplumber等。綜合來看,pdfplumber庫的性能較佳,能提取出完整、且相對規范的表格。因此,本推文也主要介紹pdfplumber庫在pdf表格提取中的作用。
作為一個強大的pdf文件解析工具,pdfplumber庫可迅速將pdf文檔轉換為易於處理的txt文檔,並輸出pdf文檔的字元、頁面、頁碼等信息,還可進行頁面可視化操作。使用pdfplumber庫前需先安裝,即在cmd命令行中輸入:
pip install pdfplumber
pdfplumber庫提供了兩種pdf表格提取函數,分別為.extract_tables( )及.extract_table( ),兩種函數提取結果存在差異。為進行演示,我們網站上下載了一份短期融資券主體信用評級報告,為pdf格式。任意選取某一表格,其界面如下:
接下來,我們簡要分析兩種提取模式下的結果差異。
(1).extract_tables( )
可輸出頁面中所有表格,並返回一個嵌套列表,其結構層次為table→row→cell。此時,頁面上的整個表格被放入一個大列表中,原表格中的各行組成該大列表中的各個子列表。若需輸出單個外層列表元素,得到的便是由原表格同一行元素構成的列表。例如,我們執行如下程序:
輸出結果:
(2).extract_table( )
返回多個獨立列表,其結構層次為row→cell。若頁面中存在多個行數相同的表格,則默認輸出頂部表格;否則,僅輸出行數最多的一個表格。此時,表格的每一行都作為一個單獨的列表,列表中每個元素即為原表格的各個單元格內容。若需輸出某個元素,得到的便是具體的數值或字元串。如下:
輸出結果:
在此基礎上,我們詳細介紹如何從pdf文件中提取表格數據。其中一種思路便是將提取出的列表視為一個字元串,結合Python的正則表達式re模塊進行字元串處理後,將其保存為以標准英文逗號分隔、可被Excel識別的csv格式文件,即進行如下操作:
輸出結果:
盡管能獲得完整的表格數據,但這種方法相對不易理解,且在處理結構不規則的表格時容易出錯。由於通過pdfplumber庫提取出的表格數據為整齊的列表結構,且含有數字、字元串等數據類型。因此,我們可調用pandas庫下的DataFrame( )函數,將列表轉換為可直接輸出至Excel的DataFrame數據結構。DataFrame的基本構造函數如下:
DataFrame([data,index, columns])
三個參數data、index和columns分別代表創建對象、行索引和列索引。DataFrame類型可由二維ndarray對象、列表、字典、元組等創建。本推文中的data即指整個pdf表格,提取程序如下:
其中,table[1:]表示選定整個表格進行DataFrame對象創建,columns=table[0]表示將表格第一行元素作為列變數名,且不創建行索引。輸出Excel表格如下:
通過以上簡單程序,我們便提取出了完整的pdf表格。但需注意的是,面對不規則的表格數據提取,創建DataFrame對象的方法依然可能出錯,在實際操作中還需進行核對。
關於我們
微信公眾號「爬蟲俱樂部」分享實用的stata命令,歡迎轉載、打賞。爬蟲俱樂部是由李春濤教授領導下的研究生及本科生組成的大數據分析和數據挖掘團隊。
投稿要求:
1)必須原創,禁止抄襲;
2)必須准確,詳細,有例子,有截圖;
『陸』 Python中extract_tags()怎麼對多行文本提取特徵詞而不是一行一行計算
[python] view plain
#coding:utf-8
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
from multiprocessing import Pool,Queue,Process
import multiprocessing as mp
import time,random
import os
import codecs
import jieba.analyse
jieba.analyse.set_stop_words("yy_stop_words.txt")
def extract_keyword(input_string):
#print("Do task by process {proc}".format(proc=os.getpid()))
tags = jieba.analyse.extract_tags(input_string, topK=100)
#print("key words:{kw}".format(kw=" ".join(tags)))
return tags
#def parallel_extract_keyword(input_string,out_file):
def parallel_extract_keyword(input_string):
#print("Do task by process {proc}".format(proc=os.getpid()))
tags = jieba.analyse.extract_tags(input_string, topK=100)
#time.sleep(random.random())
#print("key words:{kw}".format(kw=" ".join(tags)))
#o_f = open(out_file,'w')
#o_f.write(" ".join(tags)+"\n")
return tags
if __name__ == "__main__":
data_file = sys.argv[1]
with codecs.open(data_file) as f:
lines = f.readlines()
f.close()
out_put = data_file.split('.')[0] +"_tags.txt"
t0 = time.time()
for line in lines:
parallel_extract_keyword(line)
#parallel_extract_keyword(line,out_put)
#extract_keyword(line)
print("串列處理花費時間{t}".format(t=time.time()-t0))
pool = Pool(processes=int(mp.cpu_count()*0.7))
t1 = time.time()
#for line in lines:
#pool.apply_async(parallel_extract_keyword,(line,out_put))
#保存處理的結果,可以方便輸出到文件
res = pool.map(parallel_extract_keyword,lines)
#print("Print keywords:")
#for tag in res:
#print(" ".join(tag))
pool.close()
pool.join()
print("並行處理花費時間{t}s".format(t=time.time()-t1))
運行:
python data_process_by_multiprocess.py message.txt
message.txt是每行是一個文檔,共581行,7M的數據
運行時間:
不使用sleep來掛起進程,也就是把time.sleep(random.random())注釋掉,運行可以大大節省時間。
『柒』 python怎樣壓縮和解壓縮ZIP文件
Python壓縮ZIP文件:
importzipfile
f=zipfile.ZipFile(target,'w',zipfile.ZIP_DEFLATED)
f.write(filename,file_url)
f.close()
其中target:是壓縮後要保存的路徑,可以是: 'C:/temp/'
ZIP_DEFLATED:表示壓縮,還有一個參數:ZIP_STORE:表示只打包,不壓縮。
這個Linux中的gz跟tar格式有點類似.
write方法如果只有一個參數filename的話,表示把你filename所帶的路徑全部壓縮到zip文件中。如果帶兩個參數,表示把filename路徑中的那個file壓縮一下並且存放到file_url中,中間沒有增加任何的文件夾。
如果要壓縮很多的文件,循環的write就ok了, 最後close掉。
Python解壓ZIP文件:
f=zipfile.ZipFile("zipfilePath",'r')
forfileinf.namelist():
f.extract(file,"temp/")
zipfilePath是壓縮文件的路徑
循環訪問該壓縮文件中的文件,並且一個一個file的解壓到對應的"temp"文件夾中
『捌』 Python extract模塊到底怎樣安裝呢
很多安裝方法的,第一種利用2.7版本自帶的pip安裝,在cmd下輸入pip install extract。第二種方法是下載壓縮包,然後解壓後,在解壓文件夾按住鍵盤shift鍵+滑鼠右鍵,選擇打開命令窗口,然後python setup.py install安裝…方法很多,可以網路一下。或者跟著一個在線教育培訓機構,例如七月在線等等
『玖』 python .extract 啥意思
你這個問題問的有點兒不知所雲了,沒有python.extract這個東西,具體python中用到extract一般會是scrapy中獲取meta內容。
『拾』 下載python然後有一堆文件要解壓
python一堆文件解壓方法如下。
壓縮包解壓要用的是zipfile這個包。
zip_file = zipfile.ZipFile(r'D:數據源XX_%s.zip'%yday)
zip_list = zip_file.namelist() # 壓縮文件清單,可以直接看到壓縮包內的各個文件的明細
for f in zip_list: # 遍歷這些文件,逐個解壓出來,
zip_file.extract(f,r'D:數據源')
zip_file.close() # 不能少!
print('昨日日誌解壓完成,請在文件夾中驗收!') # 當然我是不需要查收的(*/ω\*)
這里的解壓操作實際就相當於滑鼠右鍵「解壓到當前文件夾」的效果。
完成解壓後運行.close()是個比較好的習慣,否則可能會導致包括但不限於:
文件會一直被佔用著,可能無法重新打開;
在進程結束之前文件都刪不掉;
文件內容不能即時 flush 到磁碟直到進程結束;
到此,整個流程在無需打開瀏覽器和文件夾的情況下便自動完成了。
為了方便日常運行代碼,這里把上面的兩個流程包裝成一個函數,下載解壓
#下載昨日日誌
def download_XXlog():
yday = (date.today()+timedelta(days=-1)).strftime('%Y%m%d') # 獲取昨日日期
r = requests.get('http://XXXXXXXX/XX_%s.zip'%yday) # 獲取以日期命名的壓縮包信息
with open(r'D:數據源XX_%s.zip'%yday,'wb') as code: # 將壓縮包內容寫入到 "D:數據源" 下,並按日期命名
code.write(r.content)
print('昨日XX日誌下載完成。')
zip_file = zipfile.ZipFile(r'D:數據源XX_%s.zip'%yday)
zip_list = zip_file.namelist() # 壓縮文件清單,可以直接看到壓縮包內的各個文件的明細
for f in zip_list: # 遍歷這些文件,逐個解壓出來,
zip_file.extract(f,r'D:數據源')
zip_file.close() # 不能少!
print('昨日日誌解壓完成,請在文件夾中驗收!')
download_XXlog()
拓展
作為拓展,這里再加一個可以根據實際情況輸入(input)起始和終止日期,來下載一個特定時間段日誌的函數,這里就涉及了datetime和time這兩個工具包了。