edw数据库
⑴ 项目管理对企业的作用有哪些
其一,它是项目管理者了解开发进度、存在的问题和预期目标的管理依据。第二,大多数软件开发项目会被划分成若干个任务,并由不同的组去完成。文档管理则是不同小组任务之间联系的重要凭证。第三,可提供完整的文档,保证了项目开发的质量。第四,项目文档是系统管理员、操作员、用户、管理者和其他相关人员了解系统如何工作的培训与参考资料;第五,项目文档将为系统维护人员提供维护支持;第六,项目文档作为重要的历史档案将成为新项目的开发资源。
现在大多数金融、通信企业为了更好的服务客户、准确掌握自身数据,都在不遗余力地建立数据仓库系统。企业数据仓库(EDW)从筹建项目组到软件开发建设再到系统上线维护,基本涉及了软件项目建设的所有环节,对文档管理提出了比较全面的要求。以下就EDW建设为例做作进一步探讨。
首先要借助VSS软件建立项目文档管理服务器以保存所有的项目文档。其次,项目保存的文档要涵盖项目管理、项目调研、项目开发、项目应用、系统管理、系统测试验收、项目培训、版本控制、数据质量管理、用户手册、系统上线等整个项目周期。然而从项目管理者的亲身体会来讲,这些文档的保存往往是混乱无序,无法快捷地获得所需信息。究其原因,项目组在系统开发过程中虽然重视了文档的保存,但却忽视了文档的管理。文档归档没有正式的管理要求,缺少文档提交的依据和规则。最后是建立文档管理规定。
以EDW项目为例,未建立文档管理的情况如图1所示。由于没有统一的文档管理规定,项目小组只对自己负责的项目文档熟悉。此外,无论是项目小组成员还是项目经理都对自己需要的其他文档的保存地点、文档名称等信息缺乏了解,无法及时获取重要文档。因此,项目经理根本无法从项目文档把握项目进展情况。
制定了文档管理规定后的情况如图2所示。由于项目文档管理员按照规定对文档进行管理,因此项目经理及小组成员都能快速得到自己所需的各类文档。同时,项目经理还可以很清晰地透过项目文档把握项目进展情况。
折叠编辑本段建立规定
从各行业以及每个项目的个性出发,需要管理者结合实际情况制订出适合自身的文档管理规定。(软件文档管理指南》和《计算机软件产品开发文件编制指南(GB 8567-88) 》 (以下统称《指南》)为我们提供了相关的指导。首先要明确关于软件项目文档的具体分类。《指南 中提出文档从重要性和质量要求方面可以分为非正式文档和正式文档;从项目周期角度可分为开发文档、产品文档、管理文档;更细致一点还可分为l4类文档文件,具体有:可行性研究报告、项目开发计划、软件需求说明书、数据要求说明书、概要设计说明书、详细设计说明书、数据库设计说明书、用户手册、操作手册、模块开发卷宗、测试计划、测试分析报告、开发进度月报、项目开发总结报告。这样的分类细化了项目进度中各个阶段所需管理的文档。
其次需要将项目文档进行归类整理。下面对EDW项目组文档情况与 软件文档管理指南 进行对比分析。通过对比可以看出,没有规范管理的EDW项目组文档存在以下4方面的问题。
问题1:项目组在开发初期针对业务部门和科技部门进行了需求及信息调研,可以覆盖部分软件需求和数据需求说明书的内容,但却缺少业务部门对项目需求描述和变更的文档记录。这部分文档需建立相应目录予以保存。
问题2:对于设计说明,在系统比较复杂的情况下,设计阶段应分解成概要设计和详细设计两个步骤。目前EDW项目组只对ETL模块提供了概要设计说明书,并没有单独的存放目录,而是同其他设计文档混乱地放在一起。对于比较复杂的应用开发项目,应将这两种设计说明文档分目录管理。
问题3:在项目测试验收中,项目组没有要求将测试计划文档和测试结果报告进行规档,而只重视了测试过程中的问题文档,因此无法掌控测试进度与质量。
问题4:EDW项目组的工作分为模型设计、ETL、集市应用3个工作小组,对应的文档管理需要围绕这3个主题进行。其中模型设计和ETL都是数据仓库项目实施的模块,而集市应用则包括了建立在数据仓库基础上的小项目开发。因此,文档管理也应该针对这3个部分不同的性质制定管理规则。
通过表l中的对比分析,针对EDW文档管理存在的问题,EDW项目组最终依据通用规则建立了正式的项目文档管理规定。具体规定有以下5点。
(1)将文档分为两大部分提交管理:项目常规文档和项目归档文档。常规文档的提交和使用根据项目组内部小组成员任务的不同进行权限划分;项目归档文档由项目管理主管(或项目文档管理员)将项目中的重要文档从常规文档中进行分类归档。
(2)常规文档管理目录分为项目日常管理文档和项目流程管理文档。
(3)日常管理文档包括项目报告、会议纪要、项目管理模板、重大问题跟踪、数据质量管理。项目报告又可分为个人周报、小组周报、项目周报、项目简报,项目简报。并都按照不同目录进行分类管理。
(4)提交完整的项目开发、应用开发流程文档。一般包括:项目计划、业务需求说明书、数据需求说明书、模块、应用开发文档、系统测试文档、详细设计文档、系统测试文档、用户手册、上线文档、培训资料、系统运行维护等。
(5)所有项目组成员均建立VSS软件环境下的对应用户,各自拥有对以上各类文档的读、写、增加、删除权限。由各项目小组长保证提交已保存文档的质量;由文档管理员或项目经理整体把握项目文档在各阶段的提交情况。
项目文档管理规范制定好之后,关键在于大家要"依规执行",使杂乱无章的存放模式变得井井有条。
⑵ kettle 5.0.1 设置oracle 10g的数据库连接报错!
你JAVA home 配置好了吗? 还有我用KETTLE 不需要吧ORACLE的ojdbc14.jar 放到KETTLE下的啊?
⑶ 浅谈数据挖掘与数据仓库
浅谈数据挖掘与数据仓库
1数据挖掘
1.1数据挖掘与传统数据分析的区别
数据挖掘与传统的数据分析,如查询、报表、联机应用分析的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越出乎意料就可能越有价值。而传统的数据分析趋势为从大型数据库抓取所需数据并使用专属计算机分析软件。因此数据挖掘与传统分析方法有很大的不同。
1.2数据挖掘的应用价值
(1)分类:首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类。(2)估计:与分类类似,不同之处在于,分类描述的是离散型变量的输出,而估值处理连续值的输出;分类是确定数目的,估计是不确定的。(3)聚类:是对记录分组。聚类和分类的区别是聚集不依赖于预先定义好的类,不需要训练集。中国移动采用先进的数据挖掘工具马克威分析系统,对用户wap上网的行为进行聚类分析,通过客户分群,进行精确营销。(4)关联规则和序列模式的发现:关联是某种事物发生时其他事物会发生的这样一种联系。例如:每天购买啤酒的人也有可能购买香烟,比重有多大,可以通过关联的支持度和可信度来描述。与关联不同,序列是一种纵向的联系。例如:今天银行调整利率,明天股市的变化。(5)预测:通过分类或估值得出模型,该模型用于对未知变量的预言。(6)偏差的检测:对分析对象的少数的、极端的特例的描述,揭示内在的原因。除此之外,在客户分析,运筹和企业资源的优化,异常检测,企业分析模型的管理的方面都有广泛使用价值。
2数据仓库
2.1数据仓库的特征
(1)面向主题(Subject Oriented)的数据集合。数据仓库围绕一些主题如顾客、供应商、产品和销售来组织。数据仓库关注决策者的数据建模与分析,而不是组织机构的日常操作和事务处理。(2)集成(Integrated)的数据集合。数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。(3)时变(Time Variant)的数据集合。数据存储从历史的角度提供信息。数据仓库中的数据通常包含历史信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。(4)非易失(Nonvolatile)的数据集合。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,修改和删除操作很少,通常只需要定期的加载、刷新。数据仓库里的数据通常只需要两种操作:初始化载入和数据访问,因此其数据相对稳定,极少或根本不更新。[page] 2.2数据仓库的类型
数据仓库的类型根据数据仓库所管理的数据类型和它们所解决的企业问题范围,一般可将数据仓库分为下列3种类型:企业数据仓库(EDW)、操作型数据库(ODS)和数据集市(Data Marts)。①企业数据仓库为通用数据仓库,它既含有大量详细的数据,也含有大量累赘的或聚集的数据,这些数据具有不易改变性和面向历史性。此种数据仓库被用来进行涵盖多种企业领域上的战略或战术上的决策。②操作型数据库既可以被用来针对工作数据做决策支持,又可用做将数据加载到数据仓库时的过渡区域。与EDW相比,ODS是面向主题和面向综合的,易变的,仅含有目前的、详细的数据,不含有累计的、历史性的数据。③数据集市是为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据。几组数据集市可以组成一个EDW。
2.3数据仓库与传统数据库的比较
二者的联系既有联系又有区别。数据仓库的出现,并不是要取代数据库。目前,大部分数据仓库还是用关系数据库管理系统来管理的。可以说,数据库、数据仓库相辅相成、各有千秋。二者的区别可以从以下几个方面进行比较:
(1)出发点不同:数据库是面向事务的设计;数据仓库是面向主题设计的。(2)存储的数据不同:数据库一般存储在线交易数据;数据仓库存储的一般是历史数据。(3)设计规则不同:数据库设计是尽量避免冗余,一般采用符合范式的规则来设计;数据仓库在设计是有意引入冗余,采用反范式的方式来设计。(4)提供的功能不同:数据库是为捕获数据而设计,数据仓库是为分析数据而设计。(5)基本元素不同:数据库的基本元素是事实表,数据仓库的基本元素是维度表。(6)容量不同:数据库在基本容量上要比数据仓库小的多。(7)服务对象不同:数据库是为了高效的事务处理而设计的,服务对象为企业业务处理方面的工作人员;数据仓库是为了分析数据进行决策而设计的,服务对象为企业高层决策人员。
3数据仓库与数据挖掘的关系
当然为了数据挖掘你也不必非得建立一个数据仓库,数据仓库不是必需的。建立一个巨大的数据仓库,把各个不同源的数据统一在一起,解决所有的数据冲突问题,然后把所有的数据导到一个数据仓库内,是一项巨大的工程,可能要用几年的时间花上百万的钱才能完成。只是为了数据挖掘,你可以把一个或几个事务数据库导到一个只读的数据库中,就把它当作数据集市,然后在他上面进行数据挖掘。
⑷ 大数据仓储系统是什么
什么才是大数据
大数据相关的技术和工具非常多,给企业提供了很多的选择。在未来,还会继续出现新的技术和工具,如Hadoop分发、下一代数据仓库等,这也是大数据领域的创新热点。但是什么才是大数据可能很多人会认为数据量大就是大数据,其实不然所谓大数据是结合数据的条数+单个数据文件的大小综合衡量得出,而这其中则包括如何快速精准定位到单条数据和快速传输数据等多项相关技术。
那么我们企业到底该选用什么技术?才能保证我们的系统或者软件摆脱大数据的瓶颈呢?
可能大家都知道TDWI(数据仓库研究所)对现有的大部分技术和工具进行了调查,以现在及未来三年内企业接受度和增长率两个维度进行划分,这些技术和工具可分成四类。
从中分析得出企业最需要关注的是第1类中的技术和工具,它们最有可能成为最佳的实施工具,有很多人认为这代表了大数据技术的发展方向。我们认为这是一个误区。
对于我们真实使用及使用过程中,只有基于云的数据分析及分布式平台进行数据处理才能趋于完善。
很多企业越来越希望能将自己的各类应用程序及基础设施转移到云平台上。就像其他IT系统那样,大数据的分析工具和数据库也将走向云计算。云计算不单单是硬件的叠加,它必须结合分布式内核调用和内存计算,同时如果你想更快速的定位那就需要将算法迁入其中。
云计算能为大数据带来哪些变化呢?
首先云计算为大数据提供了可以弹性扩展、相对便宜的存储空间和计算资源(请记住这不单单说的是硬件的叠加,我们的要考虑的是软件层面的控制和管理,线程池/内存锁/域空间/层级都是必可少的考虑因素),使得中小企业也可以像亚马逊一样通过云计算来完成大数据分析。
其次,云计算IT资源庞大、分布较为广泛,是异构系统较多的企业及时准确处理数据的有力方式,甚至是唯一的方式。(此时的传输效率就会成为我们应该去考虑的问题,量子数据传输系统为我么提供了非常好的解决方案)
当然,大数据要走向云计算,还有赖于数据通信带宽的提高和云资源池的建设,需要确保原始数据能迁移到云环境以及资源池可以随需弹性扩展。
数据分析集逐步扩大,企业级数据仓库将成为主流如现有的NOSQL,内存性数据库等,更加便宜和迅速,成为企业业务经营的好助手,甚至可以改变许多行业的经营方式。
舆情早报网大数据的商业模式与架构
我们不得不承认云计算及其分布式结构是重要途径大数据处理技术正在改变目前计算机的运行模式,正在改变着这个世界:它能处理几乎各种类型的海量数据,无论是微博、文章、电子邮件、文档、音频、视频,还是其它形态的数据;它工作的速度非常快速:实际上几乎实时;它具有普及性:因为它所用的都是最普通低成本的硬件,而云计算它将计算任务分布在大量计算机构成的资源池上,使用户能够按需获取计算力、存储空间和信息服务。云计算及其技术给了人们廉价获取巨量计算和存储的能力,云计算分布式架构能够很好地支持大数据存储和处理需求。这样的低成本硬件+低成本软件+低成本运维,更加经济和实用,使得大数据处理和利用成为可能。但这只是从投入来说我们可以有更多的弹性。
大数据的存储和管理----云数据库的必然
很多人认为NoSQL就是云数据库,因为其处理数据的模式完全是分布于各种低成本服务器和存储磁盘,因此它可以帮助网页和各种交互性应用快速处理过程中的海量数据。
它采用分布式技术结合了一系列技术,可以对海量数据进行实时分析,满足了大数据环境下一部分业务需求。
但我说这是一个错误,至少不是完整的,不能或无法彻底解决大数据存储管理需求。不可否认云计算对关系型数据库的发展将产生巨大的影响,而绝大多数大型业务系统(如银行、证券交易等)、电子商务系统所使用的数据库还是基于关系型的数据库,随着云计算的大量应用,势必对这些系统的构建产生影响,进而影响整个业务系统及电子商务技术的发展和系统的运行模式。
而基于关系型数据库服务的云数据库产品将是云数据库的主要发展方向,云数据库(CiiDB),提供了海量数据的并行处理能力和良好的可伸缩性等特性,提供同时支持在在线分析处理( CRD)和在线事务处理(CRD) 能力,提供了超强性能的数据库云服务,并成为集群环境和云计算环境的理想平台。它是一个高度可扩展、安全和可容错的软件系统,客户能通过整合降低IT成本,管理位于多个数据,提高所有应用程序的性能和实时性做出更好的业务决策服务。
我们认为CII分布式结构粒度数据结构数据仓库才是大数据处理的未来。它包含量子数据传输系统(有效解决数据传输的瓶颈)/高效压缩系统(压缩比例128:1)/云智能粒度层级分布式系统。
当人们从大数据分析中尝到甜头以后,数据分析集就会逐步扩大。目前大部分的企业所分析的数据量一般以TB为单位。按照目前数据的发展速度,很快将会进入PB时代。特别是目前在100-500TB和500+TB范围的分析数据集的数量会呈3倍或4倍增长。
随着数据分析集的扩大,以前部门层级的数据集市将不能满足大数据分析的需求,它们将成为企业级数据库(EDW)的一个子集。有一部分用户已经在使用企业级数据仓库,未来这一占比将会更高。传统分析数据库可以正常持续,但是会有一些变化,一方面,数据集市和操作性数据存储(ODS)的数量会减少,另一方面,传统的数据库厂商会提升它们产品的数据容量,细目数据和数据类型,以满足大数据分析的需要。
这就是我们所说的分布式结构粒度数据结构数据仓库,而如何做好大数据处理,舆情早报网已经做到了。
⑸ 数据库在金融行业中的应用
DB2数据库为何在金融领域应用如此广泛?在我接触过的银行用户中,绝大部分都在使用IBM DB2数据库产品,当然还是有一大批证劵公司也在使用。给我印象最为深刻的一次是在深圳办的一场DB2技术专家沙龙,那次来的基本上都银行用户和证劵用户。当时,就在想,DB2数据库产品在金融领域应用咋那么广呢?
在开始这个讨论之前,我也问了一些朋友,问他们是什么原因导致了这一事实的发生,其中有人回答是历史原因,也有人回答是因为DB2数据库产品好。当然,众多金融客户选择DB2数据库产品,肯定是有各自的原因,历史原因也罢,功能强大、性能稳定也罢,肯定各有说词。不过我们可以想象一下,对于金融用户来说,每天所产生的数据都非常多,且复杂,而且这些数据都相当重要,来不到半点马虎。因此,他们在选择数据库产品的时候,自然是分外小心,不敢怠慢。另外,作为一家金融企业,在IT上的预算肯定也比较充足,所以产品的价格自然不是他们担心的问题(当然,这只是一种猜测!)。这样再分析原因的时候,我们就把重点放在了DB2数据库的性能和稳定性上。那么,究竟是不是了DB2数据库的性能和稳定性导致了它在金融领域的应用如此广泛呢,我不得而知!
针对这个‘DB2数据库为何在金融领域应用如此广泛?’的疑问,是一个值得我们思索的过程。但至于是什么真正的原因导致的,我这主题中就不详细聊了,因为我的答案都是来源于大家,只有有了大家的支持,这个答案才会日渐丰富,日渐完善。
DB2的并发性、稳定性、扩展性这些都做得不错,
金融行业很多业务是实时性交易很强的系统它们追求的是系统的稳定性,性能好,支持高并发、安全性高
所以选择ORACLE、DB2这类数据库等等
主要是用DB2 在用AIX系统 本身兼容性又好吧这样稳定性更强,而且DB2 刚开始打开市场时是免费使用的
在金融行业,大家知道数据量大,数据复杂,更新频繁,把大量而且关系复杂的数据进行整合,二次加工,做个决策分析,这些工作的前提都是要有一个稳定高效的数据库。IBM DB2具有很好的安全性,数据可移植性,其他数据库数据可以移植过来,又善于处理关系复杂的数据,而且速度快,连接方式灵活,可通过 ODBC、JBDC、网络服务、本地客户机或异步客户机接口来实现,总之,相对其他数据库DB2具有明显的优势,正好符合银行的要求。
金融行业使用 DB2 可能是有其历史原因的, 因为金融行业本身用 IBM 的主机就比较多 :)
还是听金融行业的兄弟们站出来说句吧
大家好
在金融行业中,我想大部分的业务系统使用的是DB2,而绝大部分的经营分析系统用的是teradata,我所知道就有工行,建行,中行,光大,浦发,民生,邮政银行等等,IBM的产品一贯是安全性的代表,在银行交易数据极其重要的前提下,选择DB2是一个不错的选择,同时,DB2的大数据处理速度也仅次于teradata,另外很多银行的硬件选择了IBM的大机,自然iBM的软件产品也是他们考虑的重中之重,至于teradata,在成功实施了walmart,ebay等超大的数据仓库后,在入主中国也强势地拿下了近10省的移动的经分系统和移动集团公司的经分系统,同时又很成功的实施了上海证交所的DW,这些事实的确证明了他们是数据仓库行业的领导者,如果不缺钱,我相信选择teradata做构建EDW是一个不错的选择!
我认为主要有以下几点:
1、历史原因
金融行业对于数据安全和系统可用性要求很高,因此,选用IBM主机的颇多。而DB2最初就是建立在主机操作系统上的,毫无疑问,是与IBM主机配合最好的数据库产品,所以自然就会选择DB2数据库。由于对DB2比较熟悉,在开放式系统上也就选择了DB2数据库。
2、IBM技术支持和售后服务做的很好,产品性价比较高
根据我个人的亲身体验,IBM能够根据客户的需求进行电话或者现场技术支持,能够根据客户要求参与项目建设,与ORACLE相比,售后服务价格相对较低。
3、产品自身为用户提供了较多的监控和分析工具,便于用户自己进行问题诊断和性能优化