python文件同步

发布时间: 2022-04-29 17:53:54

‘壹’ 你都用python 来做什么

当我知道可以做这些之后，我特别想会。因为论文查阅、答案确认查询；想知道豆瓣8分以上电影，或者穿越类的电影、处理工资数据考核表等。

可以干什么

1、上学吧答案神器主要实现的是无限制获取上学吧网站上的题目答案（绕过 IP 限制），并实现了自动识别验证码，只用输入某个题目的网址，即可一键获取答案，速度非常快。“想要哈哈，自己或者给孩子辅导作业必备啊？”

2、抓取某系统内全部学生姓名学号及选课信息

3、扫描研究生系统上的弱密码用户、模拟登录图书馆系统并自动续借

4、给钓鱼网站批量提交垃圾信息经常会收到含有钓鱼网站链接的短信的，一般都是盗取 QQ 密码的偏多，其实可以使用 Python 来批量给对方的服务器提交垃圾数据（需要先抓包），这样骗子看到信息之后就不知道哪些是真的哪些是假的了，说不定可以解救一部分填了密码的同学。

5、网易云音乐批量下载可以批量下载网易云音乐热歌榜的歌曲，可以自己设定数量，速度非常快。

6、批量下载读者杂志某一期的全部文章

7、获取城市PM2.5浓度和排名

8、爬取某网商品价格信息

你都用 Python 来做什么？

那Python 作为一种功能强大的编程语言，因其简单易学而受到很多开发者的青睐。那么，Python 的应用领域有哪些呢？

Python 的应用领域非常广泛，几乎所有大中型互联网企业都在使用 Python 完成各种各样的任务，例如国外的 Google、Youtube、Dropbox，国内的网络、新浪、搜狐、腾讯、阿里、网易、淘宝、知乎、豆瓣、汽车之家、美团等等。概括起来，Python 的应用领域主要有如下几个。

Web应用开发

Python 经常被用于 Web 开发，尽管目前 PHP、JS 依然是 Web 开发的主流语言，但 Python 上升势头更劲。尤其随着 Python 的 Web 开发框架逐渐成熟（比如 Django、flask、TurboGears、web2py 等等），程序员可以更轻松地开发和管理复杂的 Web 程序。例如，通过 mod_wsgi 模块，Apache 可以运行用 Python 编写的 Web 程序。Python 定义了 WSGI 标准应用接口来协调 HTTP 服务器与基于 Python 的 Web 程序之间的通信。举个最直观的例子，全球最大的搜索引擎 Google，在其网络搜索系统中就广泛使用 Python 语言。另外，我们经常访问的集电影、读书、音乐于一体的豆瓣网（如图 1 所示），也是使用 Python 实现的。

图2Python开发的游戏

除此之外，Python 可以直接调用 Open GL 实现 3D 绘制，这是高性能游戏引擎的技术基础。事实上，有很多 Python 语言实现的游戏引擎，例如 Pygame、Pyglet 以及 Cocos 2d 等。以上也仅是介绍了 Python 应用领域的“冰山一角”，例如，还可以利用 Pygame 进行游戏编程；用 PIL 和其他的一些工具进行图像处理；用 PyRo 工具包进行机器人控制编程，等等。有兴趣的读者，可自行搜索资料进行详细了解。

‘贰’ 用python将几个mysql 数据库的数据同步到一个mysql里面

这是我以前写的一个简单的查找xml值的一个方法，使用该方法可以比较方便的获得xml的值，相比xml模块来说比较轻巧defgetValue(xmlcontent,type):start=''end=''ifxmlcontent.find(start)==-1orxmlcontent.find(end)==-1:return""else:sid=xmlcontent.find(start)+len(type)+2eid=xmlcontent.find(end)returnxmlcontent[sid:eid]例如:a='''Jim12'''name=getValue(a,'name')age=getValue(a,'age')在这获得了数据之后再写到数据库不过是一条简单的INSERT语句罢了

‘叁’ python可以用来干嘛

·Web应用开发
Python常被用于Web开发，随着Python的Web开发框架逐渐成熟，如Django、flask等等，开发者们可以更轻松地开发和管理复杂的Web程序。通过mod_wsgi模块，Apache可以运行Python编写的Web程序，举个最直观的例子，全球最大的搜索引擎
Google，在其网络搜索系统中就广泛使用 Python 语言。另外，我们经常访问的集电影、读书、音乐于一体的豆瓣网(如图 1 所示)，也是使用 Python
实现的。不仅如此，全球最大的视频网站 Youtube 以及 Dropbox(一款网络文件同步工具)也都是用 Python 开发的。
·自动化运维
Python 是标准的系统组件，可以在终端下直接运行 Python。有一些 Linux 发行版的安装器使用 Python 语言编写，例如 Ubuntu 的
Ubiquity 安装器、Red Hat Linux 和 Fedora 的 Anaconda 安装器等等。另外，Python
标准库中包含了多个可用来调用操作系统功能的库。例如，通过 pywin32 这个软件包，我们能访问 Windows 的 COM 服务以及其他 Windows
API;使用 IronPython，我们能够直接调用 .Net Framework。
·人工智能领域
人工智能是现如今非常火的一个方向， Python
在人工智能领域内的机器学习、神经网络、深度学习等方面，都是主流的编程语言。可以这么说，基于大数据分析和深度学习发展而来的人工智能，其本质上已经无法离开
Python 的支持了。
·网络爬虫
Python语言很早就用来编写网络爬虫。Google 等搜索引擎公司大量地使用 Python 语言编写网络爬虫。从技术层面上将，Python
提供有很多服务于编写网络爬虫的工具，例如 urllib、Selenium 和 BeautifulSoup 等，还提供了一个网络爬虫框架 Scrapy。
·游戏开发
很多游戏都是使用C++编写图形显示等高性能的模块，使用Python或Lua编写游戏的逻辑，相比Python，Lua的功能更简单，体积也更小，但Python支持更多的特性和数据类型。除此之外，Python
可以直接调用 Open GL 实现 3D 绘制，这是高性能游戏引擎的技术基础。事实上，有很多 Python 语言实现的游戏引擎，例如 Pygame、Pyglet
以及 Cocos 2d 等。

‘肆’ 关于多个python文件共享数据

简单。一个是通过线程同步。另一个就是全局变量global，加上这个修饰就可以了。python一个进程里的所有东西，都是在一个内存空间的。只要加了global就可以访问。可以用这个全局变量通讯，效果也是一样的。python一个进程只用一个CPU核。所以不存在楼下说的地址空间不一样的问题。

进程间同步也有几个方法。通常使用共享内存，管道，不过最常用的还是socket或者是数据库。还有些分布式组件不是很好用。我通常用mutliprocessing，里面有现成的进程通信办法。

看到你的需求。我觉着可以用两个变量，一个变量记录修改状态，另一个变量要求先锁再进行修改。目前看来如果仅仅是python里实现。直接使用memcache这个工具就可以解决。一个程序读写，其它的程序只需要轮洵就可以了。从原理上讲memcache是一个内存数据库。

‘伍’ 使用python同步mysql到redis由于数据较多，一条一条读出来写到redis太慢，有没有可以批量操作的。

MYSQL快速同步数据到Redis
举例场景：存储游戏玩家的任务数据，游戏服务器启动时将mysql中玩家的数据同步到redis中。
从MySQL中将数据导入到Redis的Hash结构中。当然，最直接的做法就是遍历MySQL数据，一条一条写入到Redis中。这样没什么错，但是速度会非常慢。如果能够想法使得MySQL的查询输出数据直接能够与Redis命令行的输入数据协议相吻合，可以节省很多消耗和缩短时间。
Mysql数据库名称为：GAME_DB, 表结构举例：
CREATE TABLE TABLE_MISSION (
playerId int(11) unsigned NOT NULL,
missionList varchar(255) NOT NULL,
PRIMARY KEY (playerId)
);

Redis中的数据结构使用哈希表：
键KEY为mission, 哈希域为mysql中对应的playerId, 哈希值为mysql中对应的missionList。数据如下：
[root@iZ23zcsdouzZ ~]# redis-cli
127.0.0.1:6379> hget missions 36598
"{\"10001\":{\"status\":1,\"progress\":0},\"10002\":{\"status\":1,\"progress\":0},\"10003\":{\"status\":1,\"progress\":0},\"10004\":{\"status\":1,\"progress\":0}}"

快速同步方法：
新建一个后缀.sql文件：mysql2redis_mission.sql
内容如下：
SELECT CONCAT(
"*4\r\n",
'$', LENGTH(redis_cmd), '\r\n',
redis_cmd, '\r\n',
'$', LENGTH(redis_key), '\r\n',
redis_key, '\r\n',
'$', LENGTH(hkey), '\r\n',
hkey, '\r\n',
'$', LENGTH(hval), '\r\n',
hval, '\r'
)
FROM (
SELECT
'HSET' as redis_cmd,
'missions' AS redis_key,
playerId AS hkey,
missionList AS hval
FROM TABLE_MISSION
) AS t

创建shell脚本mysql2redis_mission.sh
内容：
mysql GAME_DB --skip-column-names --raw < mission.sql | redis-cli --pipe

Linux系统终端执行该shell脚本或者直接运行该系统命令，即可将mysql数据库GAME_DB的表TABLE_MISSION数据同步到redis中键missions中去。mysql2redis_mission.sql文件就是将mysql数据的输出数据格式和redis的输入数据格式协议相匹配，从而大大缩短了同步时间。
经过测试，同样一份数据通过单条取出修改数据格式同步写入到redis消耗的时间为5min, 使用上面的sql文件和shell命令，同步完数据仅耗时3s左右。

‘陆’ python怎样收集数据

这么具体的问题，找通用demo很难啊，个人觉得问题的难点不在Python。
1. 获取什么服务器性能数据和如何获取，可以请教公司内部运维。
2. 获取什么数据库性能数据和如何获取，可以请教公司内部DBA。
3. 以上两点搞定了，才能确定临时数据存储结构和最终数据库表结构。
以上三点是关键，Python的事情就简单多了，提供一种思路：一分钟一次，实时性不高，每台服务器用cron部署一个a.py，用于获取性能数据，在某一台服务器有一个b.py，负责获取所有服务器a.py产生的数据，然后写入数据库；a.py如何上报到b.py取决于你擅长什么，如果熟悉网络编程，用a.py做客户端上报到服务端b.py，如果熟悉shell的文件同步(如rsync)，a.py只写本地文件，b.py调用c.sh（封装rsync）拉取远程文件。

‘柒’ python文件有哪些操作

使用文件：

文件迭代器是最好的读取行工具，文件也有个迭代器会自动在for循环，列表解析或者其他迭代语句中对文件进行逐行读取。
读取内容是字符串，而不是对象，文件读取的数据回到脚本时是一个字符串
close是通常选项，文件上下文管理器是一种替代方法。但close()是一个好习惯。

其他文件工具

open函数及其返回的文件对象是python脚本中通向外部文件的主要接口，但还有其他的类似工具：

标准流，在sys模块中预先打开的文件对象
os模块中的描述文件
sockets、pipes和FIFO文件，文件类对象同步进程、网络通信
通过键来存取的文件，通过键直接存储的不变的python对象
Shell命令流，os.popen、subprocess.Popen这样的工具
第三方开源的文件类工具等

‘捌’ 如何使用七牛Python SDK写一个同步脚本及使

七牛云存储的 Python 语言版本 SDK（本文以下称 Python-SDK）是对七牛云存储API协议的一层封装，以提供一套对于 Python 开发者而言简单易用的开发工具。Python 开发者在对接 Python-SDK 时无需理解七牛云存储 API 协议的细节，原则上也不需要对 HTTP 协议和原理做非常深入的了解，但如果拥有基础的 HTTP 知识，对于出错场景的处理可以更加高效。

最近刚搭了个markdown静态博客，想把图片放到云存储中。

经过调研觉得七牛可以满足我个人的需求，就选它了。

要引用图片就要先将图片上传到云上。

虽然七牛网站后台可以上传文件，但每次上传都需要先登录，然后选择图片，设置连接地址，才能上传。

这个过程有些繁琐，所以我便想用七牛云提供的SDK写个一同步工具，方便增量同步文件。

有了这个想法，就马上行动。花了大概一个上午的时间，总算把这个工具给写出来，并放到GitOSC和github上。

#!/usr/bin/env python#-*- coding:utf-8 -*-## AUTHOR = "heqingpan"# AUTHOR_EMAIL = "[email protected]"# URL = "http://git.oschina.net/hqp/qiniu_sync"import qiniufrom qiniu import Authfrom qiniu import BucketManagerimport osimport reaccess_key = ''secret_key = ''bucket_name = ''bucket_domain = ''q = Auth(access_key, secret_key)bucket = BucketManager(q)basedir=os.path.realpath(os.path.dirname(__file__))filename=__file__ignore_paths=[filename,"{0}c".format(filename)]ignore_names=[".DS_Store",".git",".gitignore"]charset="utf8"diff_time=2*60def list_all(bucket_name, bucket=None, prefix="", limit=100):rlist=[]if bucket is None:bucket = BucketManager(q)marker = Noneeof = Falsewhile eof is False:ret, eof, info = bucket.list(bucket_name, prefix=prefix, marker=marker, limit=limit)marker = ret.get('marker', None)for item in ret['items']:rlist.append(item["key"])if eof is not True:# 错误处理#print "error"passreturn rlistdef get_files(basedir="",fix="",rlist=None,ignore_paths=[],ignore_names=[]):if rlist is None:rlist=[]for subfile in os.listdir(basedir):temp_path=os.path.join(basedir,subfile)tp=os.path.join(fix,subfile)if tp in ignore_names:continueif tp in ignore_paths:continueif os.path.isfile(temp_path):rlist.append(tp)elif os.path.isdir(temp_path):get_files(temp_path,tp,rlist,ignore_paths,ignore_names)return rlistdef get_valid_key_files(subdir=""):basedir=subdir or basedirfiles = get_files(basedir=basedir,ignore_paths=ignore_paths,ignore_names=ignore_names)return map(lambda f:(f.replace("\","/"),f),files)def sync():qn_keys=list_all(bucket_name,bucket)qn_set=set(qn_keys)l_key_files=get_valid_key_files(basedir)k2f={}update_keys=[]u_count=500u_index=0for k,f in l_key_files:k2f[k]=fstr_k=kif isinstance(k,str):k=k.decode(charset)if k in qn_set:update_keys.append(str_k)u_index+=1if u_index > u_count:u_index-=u_countupdate_file(k2f,update_keys)update_keys=[]else:# uploapload_file(k,os.path.join(basedir,f))if update_keys:update_file(k2f,update_keys)print "sync end"def update_file(k2f,ulist):ops=qiniu.build_batch_stat(bucket_name,ulist)rets,infos = bucket.batch(ops)for i in xrange(len(ulist)):k=ulist[i]f=k2f.get(k)ret=rets[i]["data"]size=ret.get("fsize",None)put_time = int(ret.get("putTime")/10000000)local_size=os.path.getsize(f)local_time=int(os.path.getatime(f))if local_size==size:continueif put_time >= local_time - diff_time:# is newcontinue# updateupload_file(k,os.path.join(basedir,f))def upload_file(key,localfile):print "upload_file:"print keytoken = q.upload_token(bucket_name, key)mime_type = get_mime_type(localfile)params = {'x:a': 'a'}progress_handler = lambda progress, total: progressret, info = qiniu.put_file(token, key, localfile, params, mime_type, progress_handler=progress_handler)def get_mime_type(path):mime_type = "text/plain"return mime_typedef main():sync()if __name__=="__main__":main()

这个同步脚本支持批量比较文件，差异增量更新、批量更新。

使用方式

安装七牛Python SDK

1pip install qiniu

填写脚本文件(qiniusync.py)的配置信息

123access_key = ''secret_key = ''bucket_name = ''

注册后可以拿到对应的信息

将脚本文件(qiniusync.py)拷贝到待同步根目录

运行脚本

1python qiniusync.py

后记

写完提交之后才发现，七牛已经提供相应的工具，我这个算是重复造轮子吧。

既然已经写，就发出来，当做熟悉一下七牛的SDK也不错，说不定以后还能用的上。

七牛云存储Python SDK使用教程

本教程旨在介绍如何使用七牛的Python SDK来快速地进行文件上传，下载，处理，管理等工作。

安装

首先，要使用Python的SDK必须要先安装。七牛的Python SDK是开源的，托管在Github上面，项目地址为https://github.com/qiniu/python-sdk。

安装的方式可以如项目的说明上所说，用 pip install qiniu 。当然也可以直接 clone 一份源代码下来直接使用。我一般喜欢直接 clone 源代码，这样的话，如果要对SDK做一些改动也是十分容易的。

最新版本的Python SDK需要依赖 requests 库，所以要提前安装好。安装方式当然也可以用 pip install requests 。

开发环境

Python的开发环境有很多种选择，如果喜欢文本的方式，比如vim，emacs，sublime text等都是很好的选择，如果你喜欢IDE，那么最流行的莫过于 PyCharm 了。 PyCharm 的最新版本到这里下载。

Access Key和Secret Key

我们知道七牛云存储的权限校验机制基于一对密钥，分别称为 Access Key 和 Secret Key 。其中 Access Key 是公钥， Secret Key 是私钥。这一对密钥可以从七牛的后台获取。

小试牛刀

好了，做了上面的这些准备工作，我们就去上传一个简单的文件，练练手。

1234python#coding=utf-8__author__ = 'jemy''''

本例演示了一个简单的文件上传。

这个例子里面，sdk根据文件的大小选择是Form方式上传还是分片上传。

'''import qiniuaccessKey = "<Your Access Key>"secretKey = "<Your Secret Key>"#解析结果def parseRet(retData, respInfo):if retData != None:print("Upload file success!")print("Hash: " + retData["hash"])print("Key: " + retData["key"])#检查扩展参数for k, v in retData.items():if k[:2] == "x:":print(k + ":" + v)#检查其他参数for k, v in retData.items():if k[:2] == "x:" or k == "hash" or k == "key":continueelse:print(k + ":" + str(v))else:print("Upload file failed!")print("Error: " + respInfo.text_body)#无key上传，http请求中不指定key参数def upload_without_key(bucket, filePath):#生成上传凭证auth = qiniu.Auth(accessKey, secretKey)upToken = auth.upload_token(bucket, key=None)#上传文件retData, respInfo = qiniu.put_file(upToken, None, filePath)#解析结果parseRet(retData, respInfo)def main():bucket = "if-pbl"filePath = "/Users/jemy/Documents/jemy.png"upload_without_key(bucket, filePath)if __name__ == "__main__":main()

运行结果为：

Upload file success!
Hash: Fp0XR6tM4yZmeiKXw7eZzmeyYsq8
Key: Fp0XR6tM4yZmeiKXw7eZzmeyYsq8

从上面我们可以看到，使用七牛的Python SDK上传文件的最基本的步骤是：

1.生成上传凭证

2.上传文件

3.解析回复结果

‘玖’ Python，第一次运行从ftp下载目录下所有文件，之后运行先检测FTP上文件是否更新，有，则只下载更新的文件

直接使用ftplib就可以实现，其中有一个nlst功能用于查询目录，cwd用于改变目录，还有一个size功能。你这边只需要保留一个目录的镜像。如果发现有目录差异，或者是文件大小发生变更，就用retrbinary进行文件同步就可以。

另外这样的ftp自动同步软件很多年前就有，现在很成熟。不用重新开发。

‘拾’ 如何在 Python 中进行跨进程跨脚本同步

既然是两个脚本，想必就是两个 python 进程了
IPC 的话基本没有简单的解决方案= =
基本上简单的就是文件和端口了吧= =
跨平台的话，像你说的 Windows 有 mutex 的接口，但是 Linux 还有 mmap 呢，不过这两个都不能算跨平台了

阅读全文

热点内容

英雄联盟和吃鸡哪个吃配置发布：2025-07-14 17:01:32 浏览：96

访问罗晋发布：2025-07-14 17:00:04 浏览：395

逍遥西游辅助脚本发布：2025-07-14 16:56:57 浏览：584

java默认类发布：2025-07-14 16:51:03 浏览：278

术后解压发布：2025-07-14 16:39:47 浏览：660

手机版我的世界怎么输入服务器ip 发布：2025-07-14 16:25:21 浏览：721

pythonsysstdout 发布：2025-07-14 16:15:29 浏览：196

ef数据库更新模型发布：2025-07-14 16:14:05 浏览：411

少儿编程教育平台发布：2025-07-14 16:13:54 浏览：301

相关存储格式图片发布：2025-07-14 16:13:50 浏览：144

python文件同步

与python文件同步相关的资讯