数据库调度a
❶ 调度的事件序列
在时刻t36存在事务T2,T3,T9和T8死锁,另外,事务T4等待事务T9,事务T12
等待事务T4,事务T11,T10等待事务T12。
❷ 怎么实现两个数据库的同步
同步两个sqlServer数据库
如何同步两个sqlserver数据库的内容?程序代码可以有版本管理cvs进行同步管理,可是数据库同步就非常麻烦,只能自己改了一个后再去改另一个,如果忘记了更改另一个经常造成两个数据库的结构或内容上不一致.各位有什么好的方法吗?
一、分发与复制
用强制订阅实现数据库同步操作. 大量和批量的数据可以用数据库的同步机制处理:
//
说明:
为方便操作,所有操作均在发布服务器(分发服务器)上操作,并使用推模式
在客户机器使用强制订阅方式。
二、测试通过
1:环境
服务器环境:
机器名称: zehuadb
操作系统:windows 2000 server
数据库版本:sql 2000 server 个人版
客户端
机器名称:zlp
操作系统:windows 2000 server
数据库版本:sql 2000 server 个人版
2:建用户帐号
在服务器端建立域用户帐号
我的电脑管理->本地用户和组->用户->建立
username:zlp
userpwd:zlp
3:重新启动服务器mssqlserver
我的电脑->控制面版->管理工具->服务->mssqlserver 服务
(更改为:域用户帐号,我们新建的zlp用户 .zlp,密码:zlp)
4:安装分发服务器
a:配置分发服务器
工具->复制->配置发布、订阅服务器和分发->下一步->下一步(所有的均采用默认配置)
b:配置发布服务器
工具->复制->创建和管理发布->选择要发布的数据库(sz)->下一步->快照发布->下一步->选择要发布的内容->下一步->下一步->下一步->完成
c:强制配置订阅服务器(推模式,拉模式与此雷同)
工具->复制->配置发布、订阅服务器和分发->订阅服务器->新建->sql server数据库->输入客户端服务器名称(zlp)->使用sql server 身份验证(sa,空密码)->确定->应用->确定
d:初始化订阅
复制监视器->发布服务器(zehuadb)->双击订阅->强制新建->下一步->选择启用的订阅服务器->zlp->下一步->下一步->下一步->下一步->完成
5:测试配置是否成功
复制监视器->发布衿?zehuadb)->双击sz:sz->点状态->点立即运行代理程序
查看:
复制监视器->发布服务器(zehuadb)->sz:sz->选择zlp:sz(类型强制)->鼠标右键->启动同步处理
如果没有错误标志(红色叉),恭喜您配置成功
6:测试数据
在服务器执行:
选择一个表,执行如下sql: insert into wq_newsgroup_s select '测试成功',5
复制监视器->发布服务器(zehuadb)->sz:sz->快照->启动代理程序 ->zlp:sz(强制)->启动同步处理
去查看同步的 wq_newsgroup_s 是否插入了一条新的记录
测试完毕,通过。
7:修改数据库的同步时间,一般选择夜晚执行数据库同步处理
(具体操作略) :d
/*
注意说明:
服务器一端不能以(local)进行数据的发布与分发,需要先删除注册,然后新建注册本地计算机名称
卸载方式:工具->复制->禁止发布->是在"zehuadb"上静止发布,卸载所有的数据库同步配置服务器
注意:发布服务器、分发服务器中的sqlserveragent服务必须启动
采用推模式: "d:microsoft sql servermssql epldataunc" 目录文件可以不设置共享
拉模式:则需要共享~!
*/
少量数据库同步可以采用触发器实现,同步单表即可。
三、配置过程中可能出现的问题
在sql server 2000里设置和使用数据库复制之前,应先检查相关的几台sql server服务器下面几点是否满足:
1、mssqlserver和sqlserveragent服务是否是以域用户身份启动并运行的(.administrator用户也是可以的)
如果登录用的是本地系统帐户local,将不具备网络功能,会产生以下错误:
进程未能连接到distributor '@server name'
(如果您的服务器已经用了sql server全文检索服务, 请不要修改mssqlserver和sqlserveragent服务的local启动。
会照成全文检索服务不能用。请换另外一台机器来做sql server 2000里复制中的分发服务器。)
修改服务启动的登录用户,需要重新启动mssqlserver和sqlserveragent服务才能生效。
2、检查相关的几台sql server服务器是否改过名称(需要srvid=0的本地机器上srvname和datasource一样)
在查询分析器里执行:
use master
select srvid,srvname,datasource from sysservers
如果没有srvid=0或者srvid=0(也就是本机器)但srvname和datasource不一样, 需要按如下方法修改:
use master
go
-- 设置两个变量
declare @serverproperty_servername varchar(100),
@servername varchar(100)
-- 取得windows nt 服务器和与指定的 sql server 实例关联的实例信息
select @serverproperty_servername = convert(varchar(100), serverproperty('servername'))
-- 返回运行 microsoft sql server 的本地服务器名称
select @servername = convert(varchar(100), @@servername)
-- 显示获取的这两个参数
select @serverproperty_servername,@servername
--如果@serverproperty_servername和@servername不同(因为你改过计算机名字),再运行下面的
--删除错误的服务器名
exec sp_dropserver @server=@servername
--添加正确的服务器名
exec sp_addserver @server=@serverproperty_servername, @local='local'
修改这项参数,需要重新启动mssqlserver和sqlserveragent服务才能生效。
这样一来就不会在创建复制的过程中出现18482、18483错误了。
3、检查sql server企业管理器里面相关的几台sql server注册名是否和上面第二点里介绍的srvname一样
不能用ip地址的注册名。
(我们可以删掉ip地址的注册,新建以sql server管理员级别的用户注册的服务器名)
这样一来就不会在创建复制的过程中出现14010、20084、18456、18482、18483错误了。
4、检查相关的几台sql server服务器网络是否能够正常访问
如果ping主机ip地址可以,但ping主机名不通的时候,需要在
winntsystem32driversetchosts (win2000)
(win2003)
文件里写入数据库服务器ip地址和主机名的对应关系。
例如:
127.0.0.1 localhost
192.168.0.35 oracledb oracledb
192.168.0.65 fengyu02 fengyu02
202.84.10.193 bj_db bj_db
或者在sql server客户端网络实用工具里建立别名,例如:
5、系统需要的扩展存储过程是否存在(如果不存在,需要恢复):
sp_addextendedproc 'xp_regenumvalues',@dllname ='xpstar.dll'
go
sp_addextendedproc 'xp_regdeletevalue',@dllname ='xpstar.dll'
go
sp_addextendedproc 'xp_regdeletekey',@dllname ='xpstar.dll'
go
sp_addextendedproc xp_cmdshell ,@dllname ='xplog70.dll'
接下来就可以用sql server企业管理器里[复制]-> 右键选择 ->[配置发布、订阅服务器和分发]的图形界面来配置数据库复制了。
下面是按顺序列出配置复制的步骤:
1、建立发布和分发服务器
[欢迎使用配置发布和分发向导]->[选择分发服务器]->[使"@servername"成为它自己的分发服务器,sql server将创建分发数据库和日志]
->[制定快照文件夹]-> [自定义配置] -> [否,使用下列的默认配置] -> [完成]
上述步骤完成后, 会在当前"@servername" sql server数据库里建立了一个distribion库和 一个distributor_admin管理员级别的用户(我们可以任意修改密码)。
服务器上新增加了四个作业:
[ 代理程序历史记录清除: distribution ]
[ 分发清除: distribution ]
[ 复制代理程序检查 ]
[ 重新初始化存在数据验证失败的订阅 ]
sql server企业管理器里多了一个复制监视器, 当前的这台机器就可以发布、分发、订阅了。
我们再次在sql server企业管理器里[复制]-> 右键选择 ->[配置发布、订阅服务器和分发]
我们可以在 [发布服务器和分发服务器的属性] 窗口-> [发布服务器] -> [新增] -> [确定] -> [发布数据库] -> [事务]/[合并] -> [确定] -> [订阅服务器] -> [新增] -> [确定]
把网络上的其它sql server服务器添加成为发布或者订阅服务器.
新增一台发布服务器的选项:
我这里新建立的jin001发布服务器是用管理员级别的数据库用户test连接的,
到发布服务器的管理链接要输入密码的可选框, 默认的是选中的,
在新建的jin001发布服务器上建立和分发服务器fengyu/fengyu的链接的时需要输入distributor_admin用户的密码。到发布服务器的管理链接要输入密码的可选框,也可以不选,也就是不需要密码来建立发布到分发服务器的链接(这当然欠缺安全,在测试环境下可以使用)。
2、新建立的网络上另一台发布服务器(例如jin001)选择分发服务器
[欢迎使用配置发布和分发向导]->[选择分发服务器]
-> 使用下列服务器(选定的服务器必须已配置为分发服务器) -> [选定服务器](例如fengyu/fengyu)
-> [下一步] -> [输入分发服务器(例如fengyu/fengyu)的distributor_admin用户的密码两次]
-> [下一步] -> [自定义配置] -> [否,使用下列的默认配置]
-> [下一步] -> [完成] -> [确定]
建立一个数据库复制发布的过程:
[复制] -> [发布内容] -> 右键选择 -> [新建发布]
-> [下一步] -> [选择发布数据库] -> [选中一个待发布的数据库]
-> [下一步] -> [选择发布类型] -> [事务发布]/[合并发布]
-> [下一步] -> [指定订阅服务器的类型] -> [运行sql server 2000的服务器]
-> [下一步] -> [指定项目] -> [在事务发布中只可以发布带主键的表] -> [选中一个有主键的待发布的表]
->[在合并发布中会给表增加唯一性索引和 rowguidcol 属性的唯一标识符字段[rowguid],默认值是newid()]
(添加新列将: 导致不带列列表的 insert 语句失败,增加表的大小,增加生成第一个快照所要求的时间)
->[选中一个待发布的表]
-> [下一步] -> [选择发布名称和描述] ->
-> [下一步] -> [自定义发布的属性] -> [否,根据指定方式创建发布]
-> [下一步] -> [完成] -> [关闭]
发布属性里有很多有用的选项:设定订阅到期(例如24小时)
设定发布表的项目属性:
常规窗口可以指定发布目的表的名称,可以跟原来的表名称不一样。
下图是命令和快照窗口的栏目
( sql server 数据库复制技术实际上是用insert,update,delete操作在订阅服务器上重做发布服务器上的事务操作
看文档资料需要把发布数据库设成完全恢复模式,事务才不会丢失
但我自己在测试中发现发布数据库是简单恢复模式下,每10秒生成一些大事务,10分钟后再收缩数据库日志,
这期间发布和订阅服务器上的作业都暂停,暂停恢复后并没有丢失任何事务更改 )
发布表可以做数据筛选,例如只选择表里面的部分列:
例如只选择表里某些符合条件的记录, 我们可以手工编写筛选的sql语句:
发布表的订阅选项,并可以建立强制订阅:
成功建立了发布以后,发布服务器上新增加了一个作业: [ 失效订阅清除 ]
分发服务器上新增加了两个作业:
[ jin001-dack-dack-5 ] 类型[ repl快照 ]
[ jin001-dack-3 ] 类型[ repl日志读取器 ]
上面蓝色字的名称会根据发布服务器名,发布名及第几次发布而使用不同的编号
repl快照作业是sql server复制的前提条件,它会先把发布的表结构,数据,索引,约束等生成到发布服务器的os目录下文件
(当有订阅的时候才会生成, 当订阅请求初始化或者按照某个时间表调度生成)
repl日志读取器在事务复制的时候是一直处于运行状态。(在合并复制的时候可以根据调度的时间表来运行)
建立一个数据库复制订阅的过程:
[复制] -> [订阅] -> 右键选择 -> [新建请求订阅]
-> [下一步] -> [查找发布] -> [查看已注册服务器所做的发布]
-> [下一步] -> [选择发布] -> [选中已经建立发布服务器上的数据库发布名]
-> [下一步] -> [指定同步代理程序登录] -> [当代理程序连接到代理服务器时:使用sql server身份验证]
(输入发布服务器上distributor_admin用户名和密码)
-> [下一步] -> [选择目的数据库] -> [选择在其中创建订阅的数据库名]/[也可以新建一个库名]
-> [下一步] -> [允许匿名订阅] -> [是,生成匿名订阅]
-> [下一步] -> [初始化订阅] -> [是,初始化架构和数据]
-> [下一步] -> [快照传送] -> [使用该发布的默认快照文件夹中的快照文件]
(订阅服务器要能访问发布服务器的repldata文件夹,如果有问题,可以手工设置网络共享及共享权限)
-> [下一步] -> [快照传送] -> [使用该发布的默认快照文件夹中的快照文件]
-> [下一步] -> [设置分发代理程序调度] -> [使用下列调度] -> [更改] -> [例如每五分钟调度一次]
-> [下一步] -> [启动要求的服务] -> [该订阅要求在发布服务器上运行sqlserveragent服务]
-> [下一步] -> [完成] -> [确定]
成功建立了订阅后,订阅服务器上新增加了一个类别是[repl-分发]作业(合并复制的时候类别是[repl-合并])
它会按照我们给的时间调度表运行数据库同步复制的作业。
3、sql server复制配置好后, 可能出现异常情况的实验日志:
1.发布服务器断网,sql server服务关闭,重启动,关机的时候,对已经设置好的复制没有多大影响
中断期间,分发和订阅都接收到没有复制的事务信息
2.分发服务器断网,sql server服务关闭,重启动,关机的时候,对已经设置好的复制有一些影响
中断期间,发布服务器的事务排队堆积起来
(如果设置了较长时间才删除过期订阅的选项, 繁忙发布数据库的事务日志可能会较快速膨胀),
订阅服务器会因为访问不到发布服务器,反复重试
我们可以设置重试次数和重试的时间间隔(最大的重试次数是9999, 如果每分钟重试一次,可以支持约6.9天不出错)
分发服务器sql server服务启动,网络接通以后,发布服务器上的堆积作业将按时间顺序作用到订阅机器上:
会需要一个比较长的时间(实际上是生成所有事务的insert,update,delete语句,在订阅服务器上去执行)
我们在普通的pc机上实验的58个事务100228个命令执行花了7分28秒.
3.订阅服务器断网,sql server服务关闭,重启动,关机的时候,对已经设置好的复制影响比较大,可能需要重新初试化
我们实验环境(订阅服务器)从18:46分意外停机以, 第二天8:40分重启动后, 已经设好的复制在8:40分以后又开始正常运行了, 发布服务器上的堆积作业将按时间顺序作用到订阅机器上, 但复制管理器里出现快照的错误提示, 快照可能需要重新初试化,复制可能需要重新启动.(我们实验环境的机器并没有进行快照初试化,复制仍然是成功运行的)
4、删除已经建好的发布和定阅可以直接用delete删除按钮
我们最好总是按先删定阅,再删发布,最后禁用发布的顺序来操作。
如果要彻底删去sql server上面的复制设置, 可以这样操作:
[复制] -> 右键选择 [禁用发布] -> [欢迎使用禁用发布和分发向导]
-> [下一步] -> [禁用发布] -> [要在"@servername"上禁用发布]
-> [下一步] -> [完成禁用发布和分发向导] -> [完成]
我们也可以用t-sql命令来完成复制中发布及订阅的创建和删除, 选中已经设好的发布和订阅, 按属标右键可以[生成sql脚本]。(这里就不详细讲了, 后面推荐的网站内有比较详细的内容)
当你试图删除或者变更一个table时,出现以下错误
server: msg 3724, level 16, state 2, line 1
cannot drop the table 'object_name' because it is being used for replication.
比较典型的情况是该table曾经用于复制,但是后来又删除了复制。
处理办法:
select * from sysobjects where replinfo >'0'
sp_configure 'allow updates', 1
go
reconfigure with override
go
begin transaction
update sysobjects set replinfo = '0' where replinfo >'0'
commit transaction
go
rollback transaction
go
sp_configure 'allow updates', 0
go
reconfigure with override
go
❸ 数据库 可串行化是什么什么是冲突可串行化
冲突可串行性是指一个调度,如果通过交换相邻两个无冲突的操作能够转换到某一个串行的调度,则称此调度为冲突可串行化的调度。
如:
r1(A); w1(A); r2(A); w2(A); r1(B); w1(B); r2(B); w2(B)
交换操作的次序:
r1(A); w1(A); r2(A); r1(B); w2(A); w1(B); r2(B); w2(B)
r1(A); w1(A); r1(B); r2(A); w2(A); w1(B); r2(B); w2(B)
r1(A); w1(A); r1(B); r2(A); w1(B); w2(A); r2(B); w2(B)
得到了串行调度
r1(A); w1(A); r1(B); w1(B); r2(A); w2(A); r2(B); w2(B)
其次:可串行包含冲突可串行。
❹ 调度工具(ETL+任务流)
kettle是一个ETL工具,ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)。
kettle中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。
所以他的重心是用于数据
oozie是一个工作流,Oozie工作流是放置在控制依赖DAG(有向无环图 Direct Acyclic Graph)中的一组动作(例如,Hadoop的Map/Rece作业、Pig作业等),其中指定了动作执行的顺序。
oozie工作流中是有数据流动的,但是重心是在于工作流的定义。
二者虽然都有相关功能及数据的流动,但是其实用途是不一样的。
查看帮助
列举出所有linux上的数据库
列举出所有Window上的数据库
查看数据库下的所有表
(1)确定mysql服务启动正常
查询控制端口和查询进程来确定,一下两种办法可以确认mysql是否在启动状态
办法1:查询端口
MySQL监控的TCP的3306端口,如果显示3306,证明MySQL服务在运行中
办法二:查询进程
可以看见mysql的进程
没有指定数据导入到哪个目录,默认是/user/root/表名
原因:
如果表中有主键,m的值可以设置大于1的值;如果没有主键只能将m值设置成为1;或者要将m值大于1,需要使用--split-by指定一个字段
设置了-m 1 说明只有一个maptask执行数据导入,默认是4个maptask执行导入操作,但是必须指定一个列来作为划分依据
导入数据到指定目录
在导入表数据到HDFS使用Sqoop导入工具,我们可以指定目标目录。使用参数 --target-dir来指定导出目的地,使用参数—delete-target-dir来判断导出目录是否存在,如果存在就删掉
查询导入
提示:must contain '$CONDITIONS' in WHERE clause。
where id <=1 匹配条件
$CONDITIONS:传递作用。
如果 query 后使用的是双引号,则 $CONDITIONS前必须加转义符,防止 shell 识别为自己的变量。
--query时不能使用--table一起使用
需要指定--target-dir路径
导入到hdfs指定目录并指定要求
数据导出储存方式(数据存储文件格式---( textfil parquet)--as-textfileImports data as plain text (default)--as-parquetfile Imports data to Parquet Files)
导入表数据子集到HDFS
sqoop导入blob数据到hive
对于CLOB,如xml文本,sqoop可以迁移到Hive表,对应字段存储为字符类型。
对于BLOB,如jpg图片,sqoop无法直接迁移到Hive表,只能先迁移到HDFS路径,然后再使用Hive命令加载到Hive表。迁移到HDFS后BLOB字段存储为16进制形式。
2.1.3导入关系表到Hive
第一步:导入需要的jar包
将我们mysql表当中的数据直接导入到hive表中的话,我们需要将hive的一个叫做hive-exec-1.1.0-cdh5.14.0.jar的jar包拷贝到sqoop的lib目录下
第二步:开始导入
导入关系表到hive并自动创建hive表
们也可以通过命令来将我们的mysql的表直接导入到hive表当中去
通过这个命令,我们可以直接将我们mysql表当中的数据以及表结构一起倒入到hive当中去
--incremental 增量模式。
append id 是获取一个某一列的某个值。
lastmodified “2016-12-15 15:47:35” 获取某个时间后修改的所有数据
-append 附加模式
-merge-key id 合并模式
--check-column 用来指定一些列,可以去指定多个列;通常的是指定主键id
--last -value 从哪个值开始增量
==注意:增量导入的时候,一定不能加参数--delete-target-dir 否则会报错==
第一种增量导入方式(不常用)
1.Append方式
使用场景:有个订单表,里面每个订单有一个唯一标识的自增列id,在关系型数据库中以主键的形式存在。之前已经将id在0-1000之间的编号的订单导入到HDFS 中;如果在产生新的订单,此时我们只需指定incremental参数为append,--last-value参数为1000即可,表示只从id大于1000后开始导入。
(1)创建一个MySQL表
(2)创建一个hive表(表结构与mysql一致)
注意:
append 模式不支持写入到hive表中
2.lastModify方式
此方式要求原有表有time字段,它能指定一个时间戳,让sqoop把该时间戳之后的数据导入到HDFS;因为后续订单可能状体会变化,变化后time字段时间戳也会变化,此时sqoop依然会将相同状态更改后的订单导入HDFS,当然我们可以只当merge-key参数为order-id,表示将后续新的记录和原有记录合并。
# 将时间列大于等于阈值的数据增量导入HDFS
使用 lastmodified 方式导入数据,要指定增量数据是要 --append(追加)还是要 --merge-key(合并)last-value 指定的值是会包含于增量导入的数据中。
第二种增量导入方式(推荐)
==通过where条件选取数据更加精准==
2.1.5从RDBMS到HBase
会报错
原因:sqoop1.4.6 只支持 HBase1.0.1 之前的版本的自动创建 HBase 表的功能。
解决方案:手动创建 HBase 表
导出前,目标表必须存在与目标数据库中
默认操作是将文件中的数据使用insert语句插入到表中
数据是在HDFS当中的如下目录/sqoop/emp,数据内容如下
第一步:创建MySQL表
第二步:执行导出命令
通过export来实现数据的导出,将hdfs的数据导出到mysql当中去
全量导出
增量导出
更新导出
总结:
参数介绍
--update-key 后面也可以接多个关键字列名,可以使用逗号隔开,Sqoop将会匹配多个关键字后再执行更新操作。
--export-dir 参数配合--table或者--call参数使用,指定了HDFS上需要将数据导入到MySQL中的文件集目录。
--update-mode updateonly和allowinsert。 默认模式为updateonly,如果指定--update-mode模式为allowinsert,可以将目标数据库中原来不存在的数据也导入到数据库表中。即将存在的数据更新,不存在数据插入。
组合测试及说明
1、当指定update-key,且关系型数据库表存在主键时:
A、allowinsert模式时,为更新目标数据库表存的内容,并且原来不存在的数据也导入到数据库表;
B、updateonly模式时,为更新目标数据库表存的内容,并且原来不存在的数据也不导入到数据库表;
2、当指定update-key,且关系型数据库表不存在主键时:
A、allowinsert模式时,为全部数据追加导入到数据库表;
B、updateonly模式时,为更新目标数据库表存的内容,并且原来不存在的数据也不导入到数据库表;
3、当不指定update-key,且关系型数据库表存在主键时:
A、allowinsert模式时,报主键冲突,数据无变化;
B、updateonly模式时,报主键冲突,数据无变化;
4、当不指定update-key,且关系型数据库表不存在主键时:
A、allowinsert模式时,为全部数据追加导入到数据库表;
B、updateonly模式时,为全部数据追加导入到数据库表;
实际案例:
(1)mysql批量导入hive
使用shell脚本:
笔者目前用sqoop把mysql数据导入到Hive中,最后实现命令行导入,sqoop版本1.4.7,实现如下
最后需要把这个导入搞成job,每天定时去跑,实现数据的自动化增量导入,sqoop支持job的管理,可以把导入创建成job重复去跑,并且它会在metastore中记录增值,每次执行增量导入之前去查询
创建job命令如下
创建完job就可以去执行它了
sqoop job --exec users
可以把该指令设为Linux定时任务,或者用Azkaban定时去执行它
hive导出到MySQL时,date类型数据发生变化?
问题原因:时区设置问题,date -R查看服务器时间,show VARIABLES LIKE "%time_zone"查看Mysql时间,system并不表示中国的标准时间,要将时间设置为东八区
(1):对市面上最流行的两种调度器,给出以下详细对比,以供技术选型参考。总体来说,ooize相比azkaban是一个重量级的任务调度系统,功能全面,但配置使用也更复杂。如果可以不在意某些功能的缺失,轻量级调度器azkaban是很不错的候选对象。
(2):功能:
两者均可以调度maprece,pig,java,脚本工作流任务;
两者均可以定时执行工作流任务;
(3):工作流定义:
Azkaban使用Properties文件定义工作流;
Oozie使用XML文件定义工作流;
(4):工作流传参:
Azkaban支持直接传参,例如${input};
Oozie支持参数和EL表达式,例如${fs:dirSize(myInputDir)};
(5):定时执行:
Azkaban的定时执行任务是基于时间的;
Oozie的定时执行任务基于时间和输入数据;
(6):资源管理:
Azkaban有较严格的权限控制,如用户对工作流进行读/写/执行等操作;
Oozie暂无严格的权限控制;
(7):工作流执行:
Azkaban有两种运行模式,分别是solo server mode(executor server和web server部署在同一台节点)和multi server mode(executor server和web server可以部署在不同节点);
Oozie作为工作流服务器运行,支持多用户和多工作流;
(8):工作流管理:
Azkaban支持浏览器以及ajax方式操作工作流;
Oozie支持命令行、HTTP REST、Java API、浏览器操作工作流;
浏览器页面访问
http://node03:8081/
使用Oozie时通常整合hue,用户数据仓库调度
就是刚才选择的脚本
脚本里需要的参数,尽量设置为动态自动获取,如 ${date}
第一步的参数是所有文件和当天日期,后面的只需要日期,最后一步是导出所有结果,相应填入
添加文件和设置相应参数
运行后会有状态提示页面,可以看到任务进度
点击调度任务的页面情况
修改定时任务名和描述
添加需要定时调度的任务
sm-workflow的参数都是写死的,没有设置动态,这里的下拉列表就不会有可选项。
设置参数
将sm-workflow的日期修改为 ${do_date},保存
进入定时计划sm-dw中,会看到有参数 do_date
填入相应参数,前一天日期
Oozie常用系统常量
当然,也可以通过这样将参数传入workflow任务中,代码或者shell中需要的参数。
如,修改sm-workflow 中的 sqoop_import.sh,添加一个参数 ${num}。
编辑文件(需要登陆Hue的用户有对HDFS操作的权限),修改shell中的一个值为参数,保存。
在workflow中,编辑添加参数 ${num} ,或者num=${num} 保存。
进入schele中,可以看到添加的参数,编辑输入相应参数即可。
Bundle统一管理所有定时调度,阶段划分:Bundle > Schele > workflow
❺ 如何判断数据库的可串行化调度
利用画优先图的方法
对于每个数据库元素,如果两个事务的冲突操作同时操作一个元素,则有一条有向边,如果最后有环,则不是可串行化的
以第一个为例
w1(A)w2(A) T1->T2
r1(B)w2(B) T1->T2
所以是可穿行化的
S2:
A: t1(A)w3(A) T1->T3 w3(A)w1(A) T3->T1
B: r2(B)w1(B) T2->T1 w1(B) r3(B) T1->T3
C:w1(C) w2(C) T1->T2
里面有环,所以不可串行化
❻ 下面哪个调度不是可串行化的调度 a.t1:r,t2:r,t3:w,t2:r,t1:r
这是可序列化的调度画可以访问的数据库元素XYZ冲突的优先图来进行判断,戒指是可序列化的
第二问的是序列化的调度顺序写,串行调度:
T3(R(Y)),T3( W(Y)),T3(R(Z))T4(R(Z))T4(W(Z)的)T1(R(X))T1(W(X))T1(W(Y))T2(? (X)),T2(W(X))T2(R(Y))
按照本可以更换的基础上解决冲突的规则,所以有
T3(R(Y))T3 (W(Y))T3(R(Z))T1(R(X))T1(W(X))T1(W(Y))T2(R(X)),T2(W(X)),T2( R(Y)),T4(R(Z))T4(W(Z))
T3(R(Y)),T3(W(Y))T3(R(Z))T1(R(X) )T1(W(X))T1 T4(R(Z))T4(W(Z)(W(Y)))T2(R(X)),T2(W(X))T2(R(Y))
阿尔法
Alpha
❼ 数据库中,什么是冲突等价举例说明一个冲突可串行化调度。
冲突等价有两个条件:
包括的是同一个事务的相同动作,比如S1:R(A),W(A),R(B),W(B). S2:也是R(A),W(A),R(B),W(B)
2. 每一个冲突对的顺序是一样的。比如第一个冲突对儿的顺序是:RW,然后是WW。那么另一个冲突对儿的顺序也必须一样。
PS: 关于冲突分为三种,RW,WW,WR。
❽ (数据库)设t1 t2是如下两个事务,T1:A=A+2,T2:A=A*2,请用封锁给出事务调度方法
应该有6种策略,就是:由于你的T3有2个乘号,这是什么运算?如果是乘法误输入了2个,则T2、T3的计算方式一样,则T2与T3事务相同,组合没有异议,否则运算未知,值无法计算。
❾ 数据库原理并发控制问题
并发(concurrent)和并行(parallel)这两个概念,在数据库系统的资料中经常出现,然而有关它们的定义和区别却没有明确的说法。这里,我们根据这两个概念在资料中的使用,对它们的不同做一个说明。
并发是指多个任务的同时执行,任务与任务之间没有联系。由于数据库系统要同时为许多用户提供服务,每个用户都可以发出自己的访问请求,一个请求就是一个任务。在一个时间点,数据库系统可能要同时处理多个任务。因此,数据库系统一定要具备并发处理能力。
并行是指将一个任务划分为多个子任务,这些子任务同时执行。在所有子任务处理完成后,将它们的结果进行合并,就得到该任务的最终处理结果。在数据库系统中,如果要执行一个大的数据查询,为了提高速度、降低响应时间,用户可以通过系统配置或者在命令中,要求对该大数据量查询进行并行处理,将该查询划分成多个子查询。这些子查询同时执行,最后系统将所有子查询的处理结果进行合并,作为该查询处理的最终结果。现有的大型数据库系统都支持并行处理。
需要说明的是,并发和并行与数据库系统采用多进程还是多线程体系结构无关。对采用多进程结构的数据库系统,所有的任务、子任务通过进程来处理;而对采用多线程结构的数据库系统,这些工作是由线程来完成。
数据库系统的并发控制,涉及到任务的调度、数据的一致性及可靠性等,而数据库系统的并行处理,主要涉及任务的处理速度、系统性能等方面。
❿ 如何判断数据库的可串行化调度
利用画优先图的方法x0dx0a对于每个数据库元素,如果两个事务的冲突操作同时操作一个元素,则有一条有向边,如果最后有环,则不是可串行化的x0dx0a以第一个为例x0dx0aw1(A)w2(A) T1->T2x0dx0ar1(B)w2(B) T1->T2x0dx0a所以是可穿行化的x0dx0aS2:x0dx0aA: t1(A)w3(A) T1->T3 w3(A)w1(A) T3->T1x0dx0aB: r2(B)w1(B) T2->T1 w1(B) r3(B) T1->T3x0dx0aC:w1(C) w2(C) T1->T2x0dx0a里面有环,所以不可串行化