python文件同步
『壹』 你都用python 來做什麼
當我知道可以做這些之後,我特別想會。因為論文查閱、答案確認查詢;想知道豆瓣8分以上電影,或者穿越類的電影、處理工資數據考核表等。
可以干什麼
1、上學吧答案神器 主要實現的是無限制獲取上學吧網站上的題目答案(繞過 IP 限制),並實現了自動識別驗證碼,只用輸入某個題目的網址,即可一鍵獲取答案,速度非常快。「想要哈哈,自己或者給孩子輔導作業必備啊?」
2、抓取某系統內全部學生姓名學號及選課信息
3、掃描研究生系統上的弱密碼用戶、模擬登錄圖書館系統並自動續借
4、給釣魚網站批量提交垃圾信息 經常會收到含有釣魚網站鏈接的簡訊的,一般都是盜取 QQ 密碼的偏多,其實可以使用 Python 來批量給對方的伺服器提交垃圾數據(需要先抓包),這樣騙子看到信息之後就不知道哪些是真的哪些是假的了,說不定可以解救一部分填了密碼的同學。
5、網易雲音樂批量下載 可以批量下載網易雲音樂熱歌榜的歌曲,可以自己設定數量,速度非常快。
6、批量下載讀者雜志某一期的全部文章
7、 獲取城市PM2.5濃度和排名
8、爬取某網商品價格信息
你都用 Python 來做什麼?
那Python 作為一種功能強大的編程語言,因其簡單易學而受到很多開發者的青睞。那麼,Python 的應用領域有哪些呢?
Python 的應用領域非常廣泛,幾乎所有大中型互聯網企業都在使用 Python 完成各種各樣的任務,例如國外的 Google、Youtube、Dropbox,國內的網路、新浪、搜狐、騰訊、阿里、網易、淘寶、知乎、豆瓣、汽車之家、美團等等。概括起來,Python 的應用領域主要有如下幾個。
Web應用開發
Python 經常被用於 Web 開發,盡管目前 PHP、JS 依然是 Web 開發的主流語言,但 Python 上升勢頭更勁。尤其隨著 Python 的 Web 開發框架逐漸成熟(比如 Django、flask、TurboGears、web2py 等等),程序員可以更輕松地開發和管理復雜的 Web 程序。例如,通過 mod_wsgi 模塊,Apache 可以運行用 Python 編寫的 Web 程序。Python 定義了 WSGI 標准應用介面來協調 HTTP 伺服器與基於 Python 的 Web 程序之間的通信。舉個最直觀的例子,全球最大的搜索引擎 Google,在其網路搜索系統中就廣泛使用 Python 語言。另外,我們經常訪問的集電影、讀書、音樂於一體的豆瓣網(如圖 1 所示),也是使用 Python 實現的。
圖2Python開發的游戲
除此之外,Python 可以直接調用 Open GL 實現 3D 繪制,這是高性能游戲引擎的技術基礎。事實上,有很多 Python 語言實現的游戲引擎,例如 Pygame、Pyglet 以及 Cocos 2d 等。以上也僅是介紹了 Python 應用領域的「冰山一角」,例如,還可以利用 Pygame 進行游戲編程;用 PIL 和其他的一些工具進行圖像處理;用 PyRo 工具包進行機器人控制編程,等等。有興趣的讀者,可自行搜索資料進行詳細了解。
『貳』 用python將幾個mysql資料庫的數據同步到一個mysql裡面
這是我以前寫的一個簡單的查找xml值的一個方法,使用該方法可以比較方便的獲得xml的值,相比xml模塊來說比較輕巧defgetValue(xmlcontent,type):start=''end=''ifxmlcontent.find(start)==-1orxmlcontent.find(end)==-1:return""else:sid=xmlcontent.find(start)+len(type)+2eid=xmlcontent.find(end)returnxmlcontent[sid:eid]例如:a='''Jim12'''name=getValue(a,'name')age=getValue(a,'age')在這獲得了數據之後再寫到資料庫不過是一條簡單的INSERT語句罷了
『叄』 python可以用來幹嘛
·Web應用開發
Python常被用於Web開發,隨著Python的Web開發框架逐漸成熟,如Django、flask等等,開發者們可以更輕松地開發和管理復雜的Web程序。通過mod_wsgi模塊,Apache可以運行Python編寫的Web程序,舉個最直觀的例子,全球最大的搜索引擎
Google,在其網路搜索系統中就廣泛使用 Python 語言。另外,我們經常訪問的集電影、讀書、音樂於一體的豆瓣網(如圖 1 所示),也是使用 Python
實現的。不僅如此,全球最大的視頻網站 Youtube 以及 Dropbox(一款網路文件同步工具)也都是用 Python 開發的。
·自動化運維
Python 是標準的系統組件,可以在終端下直接運行 Python。有一些 Linux 發行版的安裝器使用 Python 語言編寫,例如 Ubuntu 的
Ubiquity 安裝器、Red Hat Linux 和 Fedora 的 Anaconda 安裝器等等。另外,Python
標准庫中包含了多個可用來調用操作系統功能的庫。例如,通過 pywin32 這個軟體包,我們能訪問 Windows 的 COM 服務以及其他 Windows
API;使用 IronPython,我們能夠直接調用 .Net Framework。
·人工智慧領域
人工智慧是現如今非常火的一個方向, Python
在人工智慧領域內的機器學習、神經網路、深度學習等方面,都是主流的編程語言。可以這么說,基於大數據分析和深度學習發展而來的人工智慧,其本質上已經無法離開
Python 的支持了。
·網路爬蟲
Python語言很早就用來編寫網路爬蟲。Google 等搜索引擎公司大量地使用 Python 語言編寫網路爬蟲。從技術層面上將,Python
提供有很多服務於編寫網路爬蟲的工具,例如 urllib、Selenium 和 BeautifulSoup 等,還提供了一個網路爬蟲框架 Scrapy。
·游戲開發
很多游戲都是使用C++編寫圖形顯示等高性能的模塊,使用Python或Lua編寫游戲的邏輯,相比Python,Lua的功能更簡單,體積也更小,但Python支持更多的特性和數據類型。除此之外,Python
可以直接調用 Open GL 實現 3D 繪制,這是高性能游戲引擎的技術基礎。事實上,有很多 Python 語言實現的游戲引擎,例如 Pygame、Pyglet
以及 Cocos 2d 等。
『肆』 關於多個python文件共享數據
簡單。一個是通過線程同步。另一個就是全局變數global,加上這個修飾就可以了。python一個進程里的所有東西,都是在一個內存空間的。只要加了global就可以訪問。可以用這個全局變數通訊,效果也是一樣的。python一個進程只用一個CPU核。所以不存在樓下說的地址空間不一樣的問題。
進程間同步也有幾個方法。通常使用共享內存,管道,不過最常用的還是socket或者是資料庫。還有些分布式組件不是很好用。我通常用mutliprocessing,裡面有現成的進程通信辦法。
看到你的需求。我覺著可以用兩個變數,一個變數記錄修改狀態,另一個變數要求先鎖再進行修改。目前看來如果僅僅是python里實現。直接使用memcache這個工具就可以解決。一個程序讀寫,其它的程序只需要輪洵就可以了。從原理上講memcache是一個內存資料庫。
『伍』 使用python同步mysql到redis由於數據較多,一條一條讀出來寫到redis太慢,有沒有可以批量操作的。
MYSQL快速同步數據到Redis
舉例場景:存儲游戲玩家的任務數據,游戲伺服器啟動時將mysql中玩家的數據同步到redis中。
從MySQL中將數據導入到Redis的Hash結構中。當然,最直接的做法就是遍歷MySQL數據,一條一條寫入到Redis中。這樣沒什麼錯,但是速度會非常慢。如果能夠想法使得MySQL的查詢輸出數據直接能夠與Redis命令行的輸入數據協議相吻合,可以節省很多消耗和縮短時間。
Mysql資料庫名稱為:GAME_DB, 表結構舉例:
CREATE TABLE TABLE_MISSION (
playerId int(11) unsigned NOT NULL,
missionList varchar(255) NOT NULL,
PRIMARY KEY (playerId)
);
Redis中的數據結構使用哈希表:
鍵KEY為mission, 哈希域為mysql中對應的playerId, 哈希值為mysql中對應的missionList。 數據如下:
[root@iZ23zcsdouzZ ~]# redis-cli
127.0.0.1:6379> hget missions 36598
"{\"10001\":{\"status\":1,\"progress\":0},\"10002\":{\"status\":1,\"progress\":0},\"10003\":{\"status\":1,\"progress\":0},\"10004\":{\"status\":1,\"progress\":0}}"
快速同步方法:
新建一個後綴.sql文件:mysql2redis_mission.sql
內容如下:
SELECT CONCAT(
"*4\r\n",
'$', LENGTH(redis_cmd), '\r\n',
redis_cmd, '\r\n',
'$', LENGTH(redis_key), '\r\n',
redis_key, '\r\n',
'$', LENGTH(hkey), '\r\n',
hkey, '\r\n',
'$', LENGTH(hval), '\r\n',
hval, '\r'
)
FROM (
SELECT
'HSET' as redis_cmd,
'missions' AS redis_key,
playerId AS hkey,
missionList AS hval
FROM TABLE_MISSION
) AS t
創建shell腳本mysql2redis_mission.sh
內容:
mysql GAME_DB --skip-column-names --raw < mission.sql | redis-cli --pipe
Linux系統終端執行該shell腳本或者直接運行該系統命令,即可將mysql資料庫GAME_DB的表TABLE_MISSION數據同步到redis中鍵missions中去。mysql2redis_mission.sql文件就是將mysql數據的輸出數據格式和redis的輸入數據格式協議相匹配,從而大大縮短了同步時間。
經過測試,同樣一份數據通過單條取出修改數據格式同步寫入到redis消耗的時間為5min, 使用上面的sql文件和shell命令,同步完數據僅耗時3s左右。
『陸』 python怎樣收集數據
這么具體的問題,找通用demo很難啊,個人覺得問題的難點不在Python。
1. 獲取什麼伺服器性能數據和如何獲取,可以請教公司內部運維。
2. 獲取什麼資料庫性能數據和如何獲取,可以請教公司內部DBA。
3. 以上兩點搞定了,才能確定臨時數據存儲結構和最終資料庫表結構。
以上三點是關鍵,Python的事情就簡單多了,提供一種思路:一分鍾一次,實時性不高,每台伺服器用cron部署一個a.py,用於獲取性能數據,在某一台伺服器有一個b.py,負責獲取所有伺服器a.py產生的數據,然後寫入資料庫;a.py如何上報到b.py取決於你擅長什麼,如果熟悉網路編程,用a.py做客戶端上報到服務端b.py,如果熟悉shell的文件同步(如rsync),a.py只寫本地文件,b.py調用c.sh(封裝rsync)拉取遠程文件。
『柒』 python文件有哪些操作
使用文件:
文件迭代器是最好的讀取行工具,文件也有個迭代器會自動在for循環,列表解析或者其他迭代語句中對文件進行逐行讀取。
讀取內容是字元串,而不是對象,文件讀取的數據回到腳本時是一個字元串
close是通常選項,文件上下文管理器是一種替代方法。但close()是一個好習慣。
標准流,在sys模塊中預先打開的文件對象
os模塊中的描述文件
sockets、pipes和FIFO文件,文件類對象同步進程、網路通信
通過鍵來存取的文件,通過鍵直接存儲的不變的python對象
Shell命令流,os.popen、subprocess.Popen這樣的工具
第三方開源的文件類工具等
其他文件工具
open函數及其返回的文件對象是python腳本中通向外部文件的主要介面,但還有其他的類似工具:
『捌』 如何使用七牛Python SDK寫一個同步腳本及使
七牛雲存儲的 Python 語言版本 SDK(本文以下稱 Python-SDK)是對七牛雲存儲API協議的一層封裝,以提供一套對於 Python 開發者而言簡單易用的開發工具。Python 開發者在對接 Python-SDK 時無需理解七牛雲存儲 API 協議的細節,原則上也不需要對 HTTP 協議和原理做非常深入的了解,但如果擁有基礎的 HTTP 知識,對於出錯場景的處理可以更加高效。
最近剛搭了個markdown靜態博客,想把圖片放到雲存儲中。
經過調研覺得七牛可以滿足我個人的需求,就選它了。
要引用圖片就要先將圖片上傳到雲上。
雖然七牛網站後台可以上傳文件,但每次上傳都需要先登錄,然後選擇圖片,設置連接地址,才能上傳。
這個過程有些繁瑣,所以我便想用七牛雲提供的SDK寫個一同步工具,方便增量同步文件。
有了這個想法,就馬上行動。花了大概一個上午的時間,總算把這個工具給寫出來,並放到GitOSC和github上。
?
#!/usr/bin/env python#-*- coding:utf-8 -*-## AUTHOR = "heqingpan"# AUTHOR_EMAIL = "[email protected]"# URL = "http://git.oschina.net/hqp/qiniu_sync"import qiniufrom qiniu import Authfrom qiniu import BucketManagerimport osimport reaccess_key = ''secret_key = ''bucket_name = ''bucket_domain = ''q = Auth(access_key, secret_key)bucket = BucketManager(q)basedir=os.path.realpath(os.path.dirname(__file__))filename=__file__ignore_paths=[filename,"{0}c".format(filename)]ignore_names=[".DS_Store",".git",".gitignore"]charset="utf8"diff_time=2*60def list_all(bucket_name, bucket=None, prefix="", limit=100):rlist=[]if bucket is None:bucket = BucketManager(q)marker = Noneeof = Falsewhile eof is False:ret, eof, info = bucket.list(bucket_name, prefix=prefix, marker=marker, limit=limit)marker = ret.get('marker', None)for item in ret['items']:rlist.append(item["key"])if eof is not True:# 錯誤處理#print "error"passreturn rlistdef get_files(basedir="",fix="",rlist=None,ignore_paths=[],ignore_names=[]):if rlist is None:rlist=[]for subfile in os.listdir(basedir):temp_path=os.path.join(basedir,subfile)tp=os.path.join(fix,subfile)if tp in ignore_names:continueif tp in ignore_paths:continueif os.path.isfile(temp_path):rlist.append(tp)elif os.path.isdir(temp_path):get_files(temp_path,tp,rlist,ignore_paths,ignore_names)return rlistdef get_valid_key_files(subdir=""):basedir=subdir or basedirfiles = get_files(basedir=basedir,ignore_paths=ignore_paths,ignore_names=ignore_names)return map(lambda f:(f.replace("\","/"),f),files)def sync():qn_keys=list_all(bucket_name,bucket)qn_set=set(qn_keys)l_key_files=get_valid_key_files(basedir)k2f={}update_keys=[]u_count=500u_index=0for k,f in l_key_files:k2f[k]=fstr_k=kif isinstance(k,str):k=k.decode(charset)if k in qn_set:update_keys.append(str_k)u_index+=1if u_index > u_count:u_index-=u_countupdate_file(k2f,update_keys)update_keys=[]else:# uploapload_file(k,os.path.join(basedir,f))if update_keys:update_file(k2f,update_keys)print "sync end"def update_file(k2f,ulist):ops=qiniu.build_batch_stat(bucket_name,ulist)rets,infos = bucket.batch(ops)for i in xrange(len(ulist)):k=ulist[i]f=k2f.get(k)ret=rets[i]["data"]size=ret.get("fsize",None)put_time = int(ret.get("putTime")/10000000)local_size=os.path.getsize(f)local_time=int(os.path.getatime(f))if local_size==size:continueif put_time >= local_time - diff_time:# is newcontinue# updateupload_file(k,os.path.join(basedir,f))def upload_file(key,localfile):print "upload_file:"print keytoken = q.upload_token(bucket_name, key)mime_type = get_mime_type(localfile)params = {'x:a': 'a'}progress_handler = lambda progress, total: progressret, info = qiniu.put_file(token, key, localfile, params, mime_type, progress_handler=progress_handler)def get_mime_type(path):mime_type = "text/plain"return mime_typedef main():sync()if __name__=="__main__":main()這個同步腳本支持批量比較文件,差異增量更新、批量更新。
使用方式
安裝七牛Python SDK
?
1pip install qiniu填寫腳本文件(qiniusync.py)的配置信息
?
123access_key = ''secret_key = ''bucket_name = ''注冊後可以拿到對應的信息
將腳本文件(qiniusync.py)拷貝到待同步根目錄
運行腳本
?
1python qiniusync.py後記
寫完提交之後才發現,七牛已經提供相應的工具,我這個算是重復造輪子吧。
既然已經寫,就發出來,當做熟悉一下七牛的SDK也不錯,說不定以後還能用的上。
七牛雲存儲Python SDK使用教程
本教程旨在介紹如何使用七牛的Python SDK來快速地進行文件上傳,下載,處理,管理等工作。
安裝
首先,要使用Python的SDK必須要先安裝。七牛的Python SDK是開源的,託管在Github上面,項目地址為https://github.com/qiniu/python-sdk。
安裝的方式可以如項目的說明上所說,用 pip install qiniu 。當然也可以直接 clone 一份源代碼下來直接使用。我一般喜歡直接 clone 源代碼,這樣的話,如果要對SDK做一些改動也是十分容易的。
最新版本的Python SDK需要依賴 requests 庫,所以要提前安裝好。安裝方式當然也可以用 pip install requests 。
開發環境
Python的開發環境有很多種選擇,如果喜歡文本的方式,比如vim,emacs,sublime text等都是很好的選擇,如果你喜歡IDE,那麼最流行的莫過於 PyCharm 了。 PyCharm 的最新版本到這里下載。
Access Key和Secret Key
我們知道七牛雲存儲的許可權校驗機制基於一對密鑰,分別稱為 Access Key 和 Secret Key 。其中 Access Key 是公鑰, Secret Key 是私鑰。這一對密鑰可以從七牛的後台獲取。
小試牛刀
好了,做了上面的這些准備工作,我們就去上傳一個簡單的文件,練練手。
?
1234python#coding=utf-8__author__ = 'jemy''''本例演示了一個簡單的文件上傳。
這個例子裡面,sdk根據文件的大小選擇是Form方式上傳還是分片上傳。
?
'''import qiniuaccessKey = "<Your Access Key>"secretKey = "<Your Secret Key>"#解析結果def parseRet(retData, respInfo):if retData != None:print("Upload file success!")print("Hash: " + retData["hash"])print("Key: " + retData["key"])#檢查擴展參數for k, v in retData.items():if k[:2] == "x:":print(k + ":" + v)#檢查其他參數for k, v in retData.items():if k[:2] == "x:" or k == "hash" or k == "key":continueelse:print(k + ":" + str(v))else:print("Upload file failed!")print("Error: " + respInfo.text_body)#無key上傳,http請求中不指定key參數def upload_without_key(bucket, filePath):#生成上傳憑證auth = qiniu.Auth(accessKey, secretKey)upToken = auth.upload_token(bucket, key=None)#上傳文件retData, respInfo = qiniu.put_file(upToken, None, filePath)#解析結果parseRet(retData, respInfo)def main():bucket = "if-pbl"filePath = "/Users/jemy/Documents/jemy.png"upload_without_key(bucket, filePath)if __name__ == "__main__":main()運行結果為:
Upload file success!
Hash: Fp0XR6tM4yZmeiKXw7eZzmeyYsq8
Key: Fp0XR6tM4yZmeiKXw7eZzmeyYsq8
從上面我們可以看到,使用七牛的Python SDK上傳文件的最基本的步驟是:
1.生成上傳憑證
2.上傳文件
3.解析回復結果
『玖』 Python,第一次運行從ftp下載目錄下所有文件,之後運行先檢測FTP上文件是否更新,有,則只下載更新的文件
直接使用ftplib就可以實現,其中有一個nlst功能用於查詢目錄,cwd用於改變目錄,還有一個size功能。你這邊只需要保留一個目錄的鏡像。如果發現有目錄差異,或者是文件大小發生變更,就用retrbinary進行文件同步就可以。
另外這樣的ftp自動同步軟體很多年前就有,現在很成熟。不用重新開發。
『拾』 如何在 Python 中進行跨進程跨腳本同步
既然是兩個腳本,想必就是兩個 python 進程了
IPC 的話基本沒有簡單的解決方案= =
基本上簡單的就是文件和埠了吧= =
跨平台的話,像你說的 Windows 有 mutex 的介面,但是 Linux 還有 mmap 呢,不過這兩個都不能算跨平台了