数据库发展趋势
❶ 五大数据库理念,读懂亚马逊云科技的数据库布局
1970 年,关系型数据库之父 E.F.Codd 发表《用于大型共享数据库的关系数据模型》论文,正式拉开数据库技术发展序幕。以 Oracle、DB2、SQL Server 为代表的三大商业数据库产品独占鳌头,随后涌现出 MySQL、PostgreSQL 等为代表的开源数据库 ,和以 Amazon RDS 等为代表的云数据库,拉开百花齐放的数据库新序幕。
我们知道,云计算十年为产业转型升级提供了 历史 性契机,但变革仍在进行,随着云计算的普及,数据库市场发生根本性改变,云厂商打破传统商业数据库的堡垒,成为数据库领域全新力量。其中以连续六年入选 Gartner 领导者象限的亚马逊云 科技 为代表,我们一起探讨:为什么亚马逊云 科技 能始终保持其创新性?纵观云原生时代下,亚马逊云 科技 数据库未来还有哪些更多的可能性?
01 面对四大数据库发展趋势,亚马逊云 科技 打造五大数据库理念
后疫情时代下,加速了不少行业的业务在线化和数字化运营,企业对数据价值挖掘的需求越发强烈,亚马逊云 科技 大中华区产品部总经理顾凡详细介绍其中四大趋势:
一是伴随互联网、移动互联网的发展,电商、视频、社交、出行等新应用场景的兴起,不仅数据量大,对数据实时性要求极高,传统关系型数据库无法满足需求,因此驱动云原生数据库的出现。
二是开源数据库的广泛应用。
三是应用程序现代化对数据库提出更高要求,期待数据库拥有更高的性能、可扩展性、可用性以及降低成本,让开发人员专注于核心业务的应用开发,不用关注和核心业务无关的代码。
四是软件架构历经 PC、互联网、移动互联网,再到如今的万物互联时代,其中的迭代和转型正在驱动数据库选型的变化。
在此四大趋势下,伴随企业的业务量越来越大、越来越复杂,对数据库的要求越来越高。亚马逊云 科技 洞察客户需求,在打造云上数据库产品时提出五大理念:
一是专库专用,极致性能;二是无服务器,敏捷创新;第三是全球架构,一键部署;第四是平滑迁移,加速上云;第五是 AI 赋能,深度集成。
02 历经真实锤炼,五大数据库理念,持续赋能企业数智转型
顾凡表示,随着数据爆炸式增长,微服务架构与 DevOps 愈发流行的今天,一个数据库打天下的时代已然过去。我们需要在不同的应用场景下,针对不同的数据类型和不同的数据访问特点,为开发者和企业提供专门构建的工具。
所以亚马逊云 科技 提出 第一个核心数据库理念:专库专用 。在此理念下,推出针对关系数据、键值数据、文档数据、内存数据、图数据、时许数据、分类账数据、宽列等专门构建数据库的产品家族。
这些数据库产品均经历过亚马逊内部核心业务的真实锤炼,成绩斐然:
亚马逊电商当年是 Oracle 的客户之一,随着亚马逊电商的应用重构和业务体量发展,亚马逊电商决定将业务迁移到亚马逊云 科技 里。100 多个团队参与这庞大的迁移工作中,将亚马逊电商采购、目录管理、订单执行、广告、财务系统、钱包、视频流等关键系统全部从 Oracle 迁出来。2019 年,亚马逊将存储近 7500 个Oracle 数据库中的 75 PB 内部数据迁移到多项亚马逊云 科技 的数据库服务中,包括 Amazon DynamoDB、Amazon Aurora、Amazon ElastiCache,于是亚马逊电商成为亚马逊云 科技 在全球的“第一大客户”。
从 Oracle 切换到亚马逊云 科技 后,亚马逊电商节省了 60% 成本,面向消费者端的应用程序延迟降低 40%,数据库管理支出减少 70%。
以被誉为“亚马逊云 科技 历史 上用户数量增速最快的云服务”Amazon Aurora 为例,其拥有科媲美高端商业数据库的速度和可用性,还拥有开源数据库的简单性与成本效益,Amazon Aurora 让客户满足“鱼和熊掌兼得”需求。
据顾凡介绍,Amazon Aurora 可提供 5 倍于标准 MySQL 性能,3 倍于 PostgreSQL 吞吐量。同时提供高可用,可用区(AZ)+1的高可用,Global Databases 可完成跨区域灾备。可扩展到 15 个只读副本,成本只有商业数据库的 1/10。
医药企业九州通为药厂、供应商,搭建药厂、供应商、消费者提供供应链链条。其 B2B 系统的业务特点是读多写少,受促销活动、工作时间等影响,经常会出现波峰波谷落差较大的情况,读写比例在 7:2 或者 8:3。九州通采用 Amazon Aurora 后实现读写分离和按需扩展,整体数据库性能提升 5 倍,TCO 降低 50%。实现了跨可用区部署、负载均衡、自动故障转移、精细监控、按需自动伸缩等。
据权威机构预测,到 2022 年,75% 数据库将被部署或迁移至云平台。在这个过程中,亚马逊云 科技 是如何通过技术来帮助客户加速应用上云的?这离不开除了上述的“专库专用”外,以下四大理念:
第二个理念是无服务器、敏捷创新。 亚马逊云 科技 大中华区产品部数据类产品高级经理王晓野表示,企业业务总有波峰波谷之时,如何按照企业 80-90% 的业务峰值来规划数据库的存储容量和计算资源的话,将给应用带来一定的业务连续性的妥协和挑战。因此大多数企业都是按照峰值留有余地来选择数据库的计算资源,这将造成成本上的浪费。而 Serverless 数据库服务可完成无差别的繁复工作和自动化扩展。
Amazon DynamoDB 是亚马逊云 科技 自研 Serverless 数据库,其诞生最早可追溯到 2004 年,当时亚马逊电商作为 Oracle 的客户,尽管对于关系型数据库在零售场景的需求并不频繁,70% 均是键值类操作,此时倒逼亚马逊电商思考:为什么要把关系型数据库这么重得使用?我们可以设计一款支持读写、可横向扩展的分布式数据库吗?后来的故事大家都知道了,这款数据库就是 Amazon DynamoDB,并在 2007 年发表论文,掀起业界 NoSQL 分布式数据库技术创新大潮。
Amazon DynamoDB 可为大规模应用提供支持,支撑亚马逊自身多个高流量网站和系统,如亚马逊电商网站、亚马逊全球 442 个物流中心等。在亚马逊电商一年一度 Prime Day,光是针对DynamoDB API 的调用达到数万亿次,最高峰值请求达到每秒 8920 万次。由此可见,DynamoDB 拥有高吞吐、扩展性、一致性、可预测响应延迟、高可用等优势。
智能可穿戴设备厂商华米 科技 ,在全球 70 多个国家拥有近 1 亿用户。仅 2020 年上半年,其手表出货量超 174 万台,截止到 2021 年 2 月,华米 科技 的可穿戴设备累计记录步数是 151 万步,累计记录的睡眠时间是 128 亿个夜晚,记录心率总时长达 1208 亿个小时。如此庞大的数据同时必须保证极高的安全性和低延迟相应,如何保证稳定性是巨大的挑战。
DynamoDB 帮助华米 科技 在任何规模下都能提供延迟不超过 10 毫秒的一致响应时间。华米 科技 健康 云的 P0 和 P1 级别故障减少了约 30%,总体服务可用性提升了 0.25%,系统可用性指标达到 99.99%,为华为 科技 全球化扩展提供了有力的支撑。
最新无服务数据库产品是 Amazon Aurora Serverless V2 提供瞬间扩展能力,真正把扩展能力发挥到极致,在不到一秒的时间内,将几百个事务扩展到数十万的级别。同时在扩展时每一次调整的增量都是非常精细化的去管理,如果按照峰值来规划数据库资源,可实现大概90%的成本节省。目前 Amazon Aurora Serverless V2 在全球实现预览。
第三个理念是全球架构、一键部署。 在全球化的今天,如何支撑全球客户的业务扩展连续性、一致性、以最低延迟带给到终端客户上,对数据库提出新的挑战。
亚马逊云 科技 提供 Amazon Aurora 关系型数据库Global Database、Amazon DynamoDB、Amazon ElastiCache 内存数据库、Amazon DocumentDB 文档数据库都能利用亚马逊云 科技 的骨干网络提供比互联网更稳定的网络支撑,以一键部署的方式,帮助客户实现几千公里跨区域数据库灾备,故障恢复大概能在一分钟之内完成,同时跨区域的数据复制延迟通常小于一秒。
第四个理念是平滑迁移、加速上云。 目前,450000+ 数据库通过亚马逊云 科技 数据库迁移服务迁移到亚马逊云 科技 中,这个数字每年都在不断增长。亚马逊云 科技 提供 Amazon DMS、Amazon Database Migration Service 等工具让开发者和企业进行自助式云迁移。另外,对于迁移过程中可能会需要的支持,可通过专业服务团队和合作伙伴网络成员,为客户提供专业支持,还通过 Database Freedom 项目帮助客户降低他们的顾虑。
今年 11 月,最新产品 Babelfish for Amazon Aurora PostgreSQL 在全球和中国两个区域正式可用,可加速企业上云的迁移,实现让企业可以利用原有的技术栈、原有的 SQL Server T-SQL的人员可以利用到云数据库进行创新。
第五个理念是 AI赋能,深度集成。 我们观察到,ML 技术赋能数据库开发者,开发者无需具备机器学习专业知识,就可进行机器学习操作。在此潮流下,亚马逊云 科技 推出 Amazon Neptune,借由 Deep Graph Library 和 Amazon SageMaker 驱动图神经网络。
今年 8 月,Neptune ML 在中国正式可用,允许数据工程师不需要掌握机器学习的技能直接从图数据库里导出数据、转换格式、训练模型并发布,用 gremlin 语句调用训练成的模型在数据库里实现推理,进行欺诈检测,推荐物品。
目前,亚马逊云 科技 加速在中国区域服务落地,2021年至今新发布 60 多个数据库服务与功能。亚马逊云 科技 正是通过上述五大数据库理念,打造丰富的数据库产品家族,在全球智能化发展趋势下,为企业提供更快更好的数智服务,释放数据价值,并连续六年入选 Gartner 领导者象限,得到业界和客户的深度认可。
❷ 想学数据库的发展前景怎么样
数据库的发展前景很好,首先说数据库作为数据存储的一个东西呢,后面是越来越需要的人才去做到很好,去优化性能啊什么的,趋势是一个向上的趋势,现在想入行都来得及
❸ 新一代HTAP数据库崛起,MySQL生态的最佳归宿
俗话说,天下大势,合久必分、分久必合。
数据库领域同样如此。过去五十余年,数据库经历OLTP和OLAP两种需求漫长的融合-分离-再融合的过程。究其原因,数据库的发展始终与用户场景需求变迁紧密相关。如今,随着云计算和大数据的兴起,业务场景正在经历前所未有的变革,数据库领域也掀起了一股HTAP浪潮。
Gartner在多次报告中强调,HTAP是数据库领域最重要的发展趋势之一,也是用户数字化转型中重要的数据平台。业界甚至认为,HTAP的兴起代表着数据库大融合时代的开启。
那么,为什么数据库大厂和云服务巨头们均纷纷押宝HTAP?开源+多云为何是HTAP普及的助推剂?面对新一代HTAP数据的崛起,多年积累形成的MySQL生态终于找到最佳归宿?
放在几年前,HTAP可能还会被认为是数据库领域的小众产品,是否成气候还有待观察。
而随着数据资源、数据消费习惯和数据驱动型场景发生巨大变化,用户需求与传统数据库之间的供需矛盾日渐突出,使得HTAP这种具备“同时支持OLTP和OLAP、创新计算存储框架、去ETL”等特征的新时代数据库成为不可阻挡的趋势。
如今,几乎所有数据库大厂和云服务巨头都在布局HTAP。例如,OceanBase去年推出的 3.0版本中就正式宣布向HTAP数据库进军;今年5月,Google Cloud发布HTAP云端数据库AlloyDB,为PG用户提供了HTAP数据库服务;再加上Oracle MySQL Heatwave,甚至连SnowFlake也发布Unistore来“蹭”HTAP的热点。
如果细数近一年以来的HTAP新品,会发现几乎全部都建立在云端之上。新一代HTAP+云正在成为数据库市场重要的潮流。例如,PingCAP近日发布的TiDB 6.0,也是与云端紧密联系的新一代HTAP数据库。
事实上,PingCAP是HTAP数据库领域非常重要的一个引领者。早在TiDB 3.0起,PingCAP就正式转向HTAP,从OLTP主引擎+OLAP辅助能力,到OLTP引擎+外接分析引擎,再到OLTP引擎+融合分析引擎,PingCAP在HTAP领域稳打稳扎,一个版本上一个台阶。
如今,随着TiDB 6.0的发布,针对HTAP进行了更多成熟性改进,TPC-C 性能也较 5.0 版本提升达到 76.32%,TiDB 6.0还增强了多个企业级特性,以更好适合云时代用户对于HTAP数据库的需求。
固然,有人质疑当前HTAP是新瓶装旧酒,并无太多新意。但业界普遍形成共识:新一代HTAP与过去完全不同,开源+云孕育而出,很多都有AI加持,而且是为数据敏捷而生,拥有过去前所未有的创新活力与迭代速度,并逐渐形成数据库技术变革的新潮流。
PingCAP CTO 黄东旭也直言:“TiDB近年来的快速进化与迭代,得益于开源和云的助力。”
HTAP之所受到用户青睐,某种程度是因为用户对于数据敏捷性的极度渴求。
“在数字化时代,客户最为在乎的是如何快速走向市场。这需要数据敏捷性,而HTAP恰恰是数据敏捷的核心能力。”黄东旭如是说。
最近几年,“海量、实时、在线”的需求越来越广泛,大量采用 MySQL 和 PostgreSQL 开源数据库的新一代企业需要提升对于热数据的实时在线分析能力,这类需求遍布几乎所有的互联网企业以及从事线上业务的数字化转型企业。对于新鲜数据的实时分析能力直接决定了这些业务的生死存亡,传统的 OLTP+OLAP+ETL 的数据架构已经严重阻碍了消费者体验,这种诉求催生了 HTAP 的技术变革。
而真正帮助HTAP与用户需求完成对接的则是开源+云。众所周知,开源近年来在数据库领域的流行和影响力与日俱增,DB-Engines数据显示,全球383款数据库中开源数据库占据51.7%,六款开源数据库进入到前十,开源正在成为像HTAP这种新时代数据库的创新源泉。
以PingCAP的TiDB为例,其产品研发体系建立在开源体系和开源社区的基础上,实现了一年一个大版本、一个月一个小版本的迭代速度。黄东旭透露道:“开源是TiDB的第一个增长引擎,通过开源体系,开发者、贡献者、布道者和用户能够很好串联起来,形成飞轮效应,让产品能够走向加速迭代和创新的正向循环。”
据悉,TiDB每年会有超过 40% 的代码更新,而这些代码有很大一部分由外部贡献者所共享。TiDB开源项目一直在全球和中国开源项目活跃度中名列前茅。
如果说开源改变了HTAP产品的开发模式和迭代速度,那么云则能够为HTAP产品提供用户最为直接的需求反馈。众所周知,云数据库一改以往传统数据库部署、运维、扩展等难题,以云服务的方式让数据库使用更加简单;更加关键的是,随着云计算的普及,云上用户群体持续增加,来自云上用户群体的需求反馈无时无刻都在发生,对于数据库产品的进化与迭代至关重要。
“真正的产品迭代是如何缩短用户问题/需求的反馈时间。云无疑为数据库等基础软件提供了这样的价值,让产品可以更好地迭代。”黄东旭如是说。以TiDB为例,自去年五月全托管的数据库即服务(DBaaS)产品 TiDB Cloud 公测版发布以来,已经陆续登陆亚马逊云 科技 、谷歌云等全球知名云服务商的Marketplace,并在今年5月份正式全球商用;今年 6 月与阿里云合作上线阿里云云市场,成为为数不多的跨全球三朵云的数据库服务。
在众多数据库产品之中,MySQL凭借着开源、免费、适合互联网场景等优势,常年位居全球最受欢迎数据库的前三。根据Slintel网站的统计数据,在全球关系型数据库市场中,MySQL市场份额最高,达到43.04%。
过去二十年里,开源MySQL数据库对于各行各业影响至深,捕获了来自互联网、金融、零售、交通等多个行业用户的心,堪称“万人迷”。例如,在中国就有超过9成的金融机构都应用了MySQL数据库。
但任何数据库潮流都是“需求变化+技术变革+架构创新”融合的产物,MySQL是如此,HTAP亦不例外。如今,场景的数据规模、业务并发量、处理速度要求跟以往相比早已不是一个数量级。此时,MySQL数据库的局限性愈发突出,扩展性很难满足用户需求,想继续获得增长的企业不得不使用分库分表方案,但这又会造成数据架构的复杂性。
新一代HTAP数据库无需分库分表,且具备实时海量规模的OLTP和实时数据分析能力,还拥有极为出色的扩展性,与很多业务场景的海量交易实时数据展现、平稳运行的需求高度契合,HTAP凭借技术架构优势崛起已成必然。
“用户需求侧最大的变化就是很多用户需要借助热数据实现运营级别的实时分析,获得实时洞察以支持决策,这极大推动了新一代HTAP数据库的需求。”PingCAP副总裁刘松补充道。
虽然MySQL已经增加列存引擎Heatwave来获得HTAP能力,但主要解决规模化查询的问题,系统本身架构并未产生革命性变化,扩展能力、OLTP吞吐量依然有着很大局限。“智能新能源 汽车 跟传统燃油车在外表看几乎没区别。数据库也类似,像TiDB这种新一代HTAP数据库,从架构设计、应对场景和使用体验等角度,都与传统数据库有着极大的区别。”刘松形象比喻道。
事实上,与过去SAP HANA这种小众、昂贵的HTAP不同,新一代HTAP拥有极强的兼容性,像Google Cloud、PingCAP这些数据库厂商都借助新一代HTAP架构为采用 MySQL或者PG开源数据库的企业拓展 OLTP和OLAP的能力范围。
例如,Google Cloud发布的HTAP云端数据库AlloyDB,为单机版PG生态用户提供了最好选择,TiDB则成为MySQL生态的最佳归宿。PingCAP大量用户中有很多TiDB与MySQL混合部署的成功案例;得益于 TiDB 的开放性,TiDB 也可通过和其他数据服务产品“混搭”形成新的数据服务解决方案, 如通过同样是开源的大数据计算引擎 Flink 混搭形成实时数仓解决方案,扩展 HTAP 数据库的能力边界。
黄东旭则直言,HTAP数据库除了产品、技术之外,尤为需要关心用户体验,“HTAP应该让用户觉得好用,屏蔽掉数据库的复杂性。”据悉,PingCAP是2022 Gartner Peer Insights“Voice of the Customer” 云数据库领域唯一入选的中国数据库公司,客户总体评分达到 4.7 分(满分 5 分),在所有入选企业中位列第一。在参与Gartner Peer Insights评分的PingCAP用户中,像互联网、金融等重点行业用户均高度认可HTAP现代数据库理念。
总体来看,今年是HTAP的大年,各大厂商纷纷在市场中上新。随着新一代HTAP数据库产品的增多,整个市场对于HTAP数据库理念和产品的接受与采用将会提速。而随着新一代HTAP数据库持续完善,让广大MySQL生态用户群真正看到了大数据时代一条绝佳的迁移路径。
❹ 数据库技术的发展趋势
数据库技术的发展趋势:
根据数据库应用及多家分析机构的评估,数据库技术发展将以应用为导向,面向业务服务,并与计算机网络和人工智能等技术结合,为新型应用提供多种支持。
(1)云数据库和混合数据快速发展
云数据库(Cloud Database)简称为云库, 是在云计算环境中部署和虚拟化的数据库。将各种关系型数据库看成一系列简单的二维表,并基于简化版本的SQL或访问对象进行操作。使传统关系型数据库通过提交一个有效地链接字符串即可加入云数据库,云数据库可解决数据集中更广泛的异地资源共享问题。
(2)数据集成与数据仓库
数据仓库(Data Warehouse)是面向主题、集成、相对稳定、反映历史变化的数据集合,是决策支持系统和联机分析应用数据源的结构化数据环境。主要侧重对机构历史数据的综合分析利用,找出对企业发展有价值的信息,以提供决策支持,帮助提高效益。其特征是面向主题、集成性、稳定性和时变性。新一代数据库使数据集成和数据仓库的实施更简单。数据应用逐步过渡到数据服务,开始注重处理:关系型与非关系型数据的融合、分类、国际化多语言数据。
(3)主数据管理和商务智能
在企事业机构内部业务应用整合和系统互联中,许多机构具有相同业务语义的数据被多次反复定义和存储,导致数据大量冗余成为IT环境发展的障碍,为了有效使用和管理这些数据,主数据管理已经成为一个新的热点。
商务智能(Business Intelligence)是指利用数据仓库及数据挖掘技术对业务数据分析处理并提供决策信息和报告,促进企业利用现代信息技术收集、管理和分析商务数据,改善决策水平,提升绩效,增强综合竞争力的智慧和能力。是企业利用现代信息技术收集、管理和分析商务数据和信息,创造和累计商务知识和见解,改善商务决策水平,采取有效的商务行动,完善各种商务流程,提升各方面商务绩效,增强综合竞争力的智慧和能力。融合了先进信息技术与创新管理理念的结合体,集成企业内外的数据,加工并从中提取能够创造商业价值的信息,面向企业战略并服务于管理层。
(4)“大数据”促进新型数据库
进入“大数据时代”,大数据量、高并发、分布式和实时性的需求,由于传统的数据库技术的数据模型和预定义的操作模式,时常难以满足实际需求,致使新型数据库在大数据的场景下,将取代传统数据库成为主导。
(5)基于网络的自动化管理
网络数据库应用系统的广泛应用,使数据库管理更加自动化。如网购、网银等系统,从企业级Enterprise-class到世界级World-class的转变,提供更多基于Internet环境的管理工具,完成数据库管理网络化。应用程序编程接口API(Application ProgrammingInterface)更开放,基于浏览器端技术的管理套件,便于分布远程管理。
(6)PHP将促进数据库产品应用
随着新一代Web技术的广泛应用,在.NET和Java成为数据应用的主体开发平台后,很多厂商为了争取市场在新版本数据库产品推出后,提供面向超级文本预处理语言PHP(Hypertext Preprocessor)的专用驱动和应用。
(7)数据库将与业务语义的数据内容融合
数据库将更广泛地为用于“信息服务”。对新一代基于AJAX、MashUp、SNS等技术的创新应用,数据从集中于逻辑中心数据库,改为分布网络,为了给予技术支持,数据聚集及基于业务语义的数据内容融合也成为数据库发展的方向,不仅在商务智能领域不断加强对服务应用的支持,而且注重加强数据集成服务。
❺ 数据库技术的发展趋势
数据库技术的发展趋势:
根据数据库应用及多家分析机构的评估,数据库技术发展将以应用为导向,面向业务服务,并与计算机网络和人工智能等技术结合,为新型应用提供多种支持。
(1)云数据库和混合数据快速发展
云数据库(Cloud Database)简称为云库, 是在云计算环境中部署和虚拟化的数据库。将各种关系型数据库看成一系列简单的二维表,并基于简化版本的SQL或访问对象进行操作。使传统关系型数据库通过提交一个有效地链接字符串即可加入云数据库,云数据库可解决数据集中更广泛的异地资源共享问题。
(2)数据集成与数据仓库
数据仓库(Data Warehouse)是面向主题、集成、相对稳定、反映历史变化的数据集合,是决策支持系统和联机分析应用数据源的结构化数据环境。主要侧重对机构历史数据的综合分析利用,找出对企业发展有价值的信息,以提供决策支持,帮助提高效益。其特征是面向主题、集成性、稳定性和时变性。新一代数据库使数据集成和数据仓库的实施更简单。数据应用逐步过渡到数据服务,开始注重处理:关系型与非关系型数据的融合、分类、国际化多语言数据。
(3)主数据管理和商务智能
在企事业机构内部业务应用整合和系统互联中,许多机构具有相同业务语义的数据被多次反复定义和存储,导致数据大量冗余成为IT环境发展的障碍,为了有效使用和管理这些数据,主数据管理已经成为一个新的热点。
商务智能(Business Intelligence)是指利用数据仓库及数据挖掘技术对业务数据分析处理并提供决策信息和报告,促进企业利用现代信息技术收集、管理和分析商务数据,改善决策水平,提升绩效,增强综合竞争力的智慧和能力。是企业利用现代信息技术收集、管理和分析商务数据和信息,创造和累计商务知识和见解,改善商务决策水平,采取有效的商务行动,完善各种商务流程,提升各方面商务绩效,增强综合竞争力的智慧和能力。融合了先进信息技术与创新管理理念的结合体,集成企业内外的数据,加工并从中提取能够创造商业价值的信息,面向企业战略并服务于管理层。
(4)“大数据”促进新型数据库
进入“大数据时代”,大数据量、高并发、分布式和实时性的需求,由于传统的数据库技术的数据模型和预定义的操作模式,时常难以满足实际需求,致使新型数据库在大数据的场景下,将取代传统数据库成为主导。
(5)基于网络的自动化管理
网络数据库应用系统的广泛应用,使数据库管理更加自动化。如网购、网银等系统,从企业级Enterprise-class到世界级World-class的转变,提供更多基于Internet环境的管理工具,完成数据库管理网络化。应用程序编程接口API(Application ProgrammingInterface)更开放,基于浏览器端技术的管理套件,便于分布远程管理。
(6)PHP将促进数据库产品应用
随着新一代Web技术的广泛应用,在.NET和Java成为数据应用的主体开发平台后,很多厂商为了争取市场在新版本数据库产品推出后,提供面向超级文本预处理语言PHP(Hypertext Preprocessor)的专用驱动和应用。
(7)数据库将与业务语义的数据内容融合
数据库将更广泛地为用于“信息服务”。对新一代基于AJAX、MashUp、SNS等技术的创新应用,数据从集中于逻辑中心数据库,改为分布网络,为了给予技术支持,数据聚集及基于业务语义的数据内容融合也成为数据库发展的方向,不仅在商务智能领域不断加强对服务应用的支持,而且注重加强数据集成服务。
❻ 对话阿里云李飞飞:关于云原生数据库的五大预判
作者:王慧贤
数据存储、数据分析、数据安全......如今,围绕“数据”的话题越来越多,离人们的生活也越来越近。
从陌生到熟悉,数据不仅“出圈”,甚至已然站在了C位。去年,中央发布的《关于构建更加完善的要素市场化配置体制机制的意见》中明确表示,继土地、劳动力、资本、技术后,数据成为第五大生产要素。
步入信息化时代后,数据库、操作系统与中间件作为计算机最基础的三大软件,支撑着企业的正常运行。
当数据成为生产要素后,必然会迎来爆发式增长,企业的数据存储和处理需求将进一步释放。更重要的是,疫情加快了数字化转型的脚步,更加速了企业的上云速度。
从信息化到数字化,时代的变革,总会带来商业世界的变化。如何在云原生架构下使用数据库,成为企业的痛点和云厂商的机会,亚马逊AWS的CTO Werner Vogels曾多次强调:“数据库是云计算的终极之战。”
在数智化时代,云原生到底意味着什么?云原生数据库和传统数据库相比,核心优势是什么?是否把数据库搬上云就是云原生?基于这些问题,雷锋网与阿里巴巴集团副总裁、阿里云数据库产品事业部负责人李飞飞展开一场对话。
国产云原生数据库,摆脱“切肤之痛”
如今,数据库的商业世界,因为云的出现与发展,分成了两大派系。
一派是以Oracle为代表的传统商用数据库,一派是以国外AWS、国内阿里云为代表的云原生数据库,去“IOE革命”下的产物。
其实,早期较为火热的数据库种类有三种,层次式数据库、网络式数据库和关系型数据库。
在《浪潮之巅》一书中,作者吴军写下了这样的观点:“Oracle 的兴起很大程度上靠的是它最早看到关系型数据库的市场前景,并且在商业模式上优于 IBM。”
因此,在云原生数据库“入世”之前,数据库的天下一直是Oracle的,国内大部分互联网公司都不得不采用Oracle+IBM小型机+EMC的模式来维持正常运营。
高昂的费用,使得对于数据库需求较大的互联网巨头“忍无可忍”。
2009年,阿里巴巴的Oracle RAC 集群节点数达到了创记录的20个。可由于Oracle并没有弹性扩展的功能,只能按照峰值流量购买小型机和数据库,导致阿里将业务上涨带来的大部分利润,都支付给了Oracle。
第二年,阿里便开始走上了去“IOE”之路,根据开源MySQL搭建了AliSQL,并顺利经过了淘宝双11的考验,国产云原生数据库算是正式摆脱了“切肤之痛”,逐渐受到市场的真正认可。
另一边,国外的AWS在2015年公布了基于云计算的自研数据库Amazon Aurora。Aurora是一个关系型数据库,可以跨3个可用区域复制6份数据,其最大的特性就是高性能和高可用性。
云计算巨头的入局,让云原生数据库在国内外一步步成为主流。据Gartner预测,到了2021年,云数据库在整个数据库市场中的占比将首次达到50%,到2023年,75%的数据库都要跑在云平台之上。
关于云原生数据库,随着逐步的出圈,也让人们关心的焦点从“是啥?”转变为“还能解决哪些问题?”
但云原生数据库存在着数据孤岛的问题,无法打通多个数据系统的情况下,企业在数据加工和数据管理上就会“压力较大”,甚至在数据安全方面还存在隐患。
传统数据仓库一般基于T+1数据集成构建离线数仓,以支撑企业各项分析与服务。传统方案不但会影响线上业务稳定性,且难以支持企业的实时需求。
因此,在李飞飞看来,云原生数据库已经走到2.0阶段。这个阶段要解决的问题,就是上述存在的痛点。
9月26日,在阿里云数据库创新上云峰会上,阿里云发布了首个一站式敏捷数据仓库解决方案。该方案结合一站式数据管理平台DMS及云原生数据仓库AnalyticDB(简称:ADB),实现了库仓一体的技术架构,提供在线数据实时入仓、T+1周期性快照、按需建仓等能力,数据延时低至秒级,持续赋能业务在线化,使企业的在线数据可以释放出更大的价值。
相较于传统方案,阿里云一站式敏捷数据仓库解决方案有4大核心优势:
1、对业务侧影响小,不会因为数据汇聚集中和实时加工影响业务侧正常运行,CPU、内存占用低于5%;
2、事务顺序和数据准确性有保障,且处理链路短,支持在线数据实时处理落仓,效率更高。数据传输效率100m/s,数据延时在10秒内;
3、支持复杂实时数据加工、计算逻辑;
4、低代码操作,能够大大降低实时数仓的构建难度,提升构建效率的同时,支撑企业数字化转型过程中的各类实时场景。
除了实时统计分析场景外,企业为满足周期性数据分析需求,需建设周期性全量快照。
传统数仓的周期性全量集成方案会对生产业务造成稳定性影响、全量集成时效性差、且无法满足客户针对任意时间点进行数据回溯的业务诉求。
针对T+1周期性集成场景,一站式敏捷数据仓库解决方案支持基于拉链表的T+1全量数据快照,用户通过简单几个步骤,即可按需生成各种周期的全量或增量快照。
此外,业务还可按需进行任意时间点的数据回溯,以快速解决数据异常问题。
谈起未来数据库的发展趋势,李飞飞提到以下五点:
1、云原生+分布式一定是数据库的标配,分布式已经是必选项。分布式数据库由多个相互连接的数据库组合而成,面向用户则是以单个数据库的形态出现。云原生分布式数据库具备易用性、高扩展性、快速迭代、节约成本等特征,从资源池化到弹性扩展,再到智能运维,再到离在线一体化,解决企业用户的核心诉求。
2、AI for DB(database,指数据库)和 DB for AI 将是主流趋势。用AI将数据库运维管控智能化,尤其在云原生+分布式这个前提下更重要,因为数据库不仅是内核的能力弹性高可用、可拓展性,更重要的是部署后应用和运维的复杂度要大大降低。在数据库里,面对越来越多非结构化的数据,分析能力十分重要。
3、数据的安全可信,在今天这个大环境下变得愈发重要,如何确保整个数据库系统,在处理数据全链路过程中提供加密能力、多方安全计算能力、隐私保护的能力,也是很重要的趋势。
4、多模数据处理能力将越来越重要。比如,新型数据库多模态的处理能力,在新能源 汽车 企业打标签、智能电池化预测等应用场景中,将发挥越来越重要的作用。
5、一份数据,多个数据处理引擎:实现仓库一体、仓库联动、仓库打通,数据之间无缝流转。
以上判断,也从侧面反映出阿里云数据库的走向,这点毋庸置疑。但除此之外,业界最关心的,还有开源。
近半年,国内很多厂商相继提出开源战略,背后缘由显而易见,为了打造生态。就在今年的阿里云峰会上,阿里云智能总裁、达摩院院长张建锋(花名行癫)将2021年阿里云的发展关键词归纳为:做好服务、做深基础、做厚中台、做强生态。
做好服务与生态,成为如今厂商们不约而同的目标,而开源,就是最好的选择。
当雷锋网问到:“未来,阿里云数据库会不会把所有能力都开源?”这一问题时,李飞飞给到的回答是:“不会。”
之所以有这样的回答,是因为对于开源,他有着一些判断和看法。
李飞飞表示,这些部分,本就是阿里云数据库的商业化版本。
事实上,业界大多数的数据库厂商都不会针对自身的核心能力开源,如TiDB的核心管控组件、TiFlash。
与像MongoDB,、Cassandra、CouchDB这些以开源起家的数据库厂商不同,开源只是阿里云数据库的战略,不是阿里云数据库的命脉。
前几年,有业内人士表示,在面向开源时,国产数据库首先需要解决信任以及开源知识产权等问题。“开源会让厂商更加认真思考版权还有专利的问题,事实上,选择开源后,对于数据库厂商提出了更高的要求。”
李飞飞认为,开源只是一种选择,数据库开源成功并不代表着商业化就能够成功,不开源也不能代表厂商不先进。
更准确的说,开源只是一种有效手段。
最终,阿里云数据库希望客户能够通过开源版本把阿里云数据库产品技术快速用起来,并能够参与到技术产品的迭代过程中,在一些高阶能力上,借鉴团队专业能力和阿里云的服务能力,成为良好的商业合作伙伴,这是李飞飞以及阿里云数据库对于开源的一些基本思考。雷锋网雷锋网雷锋网
❼ 大数据的发展趋势是什么
1、数据管理仍然困难
大数据分析有一个相当清晰的想法:找到隐藏在大量数据中的信息模式,训练机器学习模型来发现这些模式,并将这些模型应用到生产中,实现操作自动化。您需要清理数据并在必要时重复它。
然而,将这些数据投入生产比看上去要困难得多。对于初学者来说,从不同的孤岛收集数据可能很困难,因为需要提取、转换和加载(ETL)以及数据库技能。为机器学习练习清理和标记数据也需要大量的时间和金钱,尤其是在使用深度学习技术时。
2、数据孤岛继续激增
这并不难预测。在五年前的Hadoop开发热潮中,人们认为所有数据,包括分析和事务工作负载,都可以合并到一个平台中。
由于种种原因,这个想法从未真正实现。最大的挑战是不同的数据类型有不同的存储需求。关系数据库、图形数据库、时间序列数据库、HDF和对象存储都有各自的优缺点。如果开发人员将他们所有的数据塞入一个适合他们所有数据的数据湖,他们将不能最大化他们的优势。
3、流媒体分析突破之年
组织处理新数据越快,业务增长越好。这是实时或流分析背后的驱动力。但是对组织来说,这样做的挑战一直是非常困难和昂贵的,但是随着组织的分析团队的成熟和技术的改进,这种情况会发生变化。
NewSQL数据库、内存中的数据网格和专用的流分析平台围绕着需要超快处理输入数据的通用功能进行融合,通常使用机器学习模型来自动化决策。
关于大数据发展趋势是什么,青藤小编就和您分享到这里了。如果您对大数据工程有浓厚的兴趣,希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的技巧及素材等内容,可以点击本站的其他文章进行学习。
❽ 大数据未来的发展趋势
由于数据科学的兴起,Web应用程序开发即将经历一场重大革命。到目前为止,开发者已经基于焦点小组、调查和对用户需求的合理猜测开发了应用程序。这种旧的工作方式是有偏见的,不能包括统计上显着数量的用户的输入。
由于物联网提供了千兆字节的可用数据,这种情况正在扭转。即时且持续的互联网接入引发了一波前所未有的用户生成数据浪潮,这些数据可以转化为可执行的见解。
网络开发公司从设计阶段就开始利用人工智能来理解所有这些数据点,并将这些发现整合到应用程序中。这种方法通过观察目标群体的特定行为和偏好,帮助公司节省时间和成本。
数据重新定义了软件生产领域
目前,软件开发涉及程序员编码或重新利用现有模块,以创建一个可工作的应用程序,满足一些预先设定的需求。深度学习将彻底改变这一现状。
开发者将不再决定应用菜单的位置。通过分析类似应用的使用情况,可以得出哪些对用户来说是必不可少的,哪些是应该强调的。与谷歌的自动补全功能相比,这是向前迈进了一步。
新版本
应用程序的升级也将取决于数据,而不是直觉或焦点小组的反馈。用户通过与app互动或在论坛和社交媒体上陈述需求来表达自己的需求。为了使用这些信息,开发团队应该收集这两种数据流,并将它们转化为可操作的见解。
事实上,英伟达副总裁兼总经理吉姆·麦克休(Jim McHugh)表示,升级将不再是战略团队的关注点,而是会自然而然地从数据中显现出来。当有更多的数据可供训练时,机器学习算法会变得更智能。当这种情况发生时,新的版本就会出现。
例如,一个新版本的聊天机器人将不断升级,使用用户生成的输入来包含以前没有返回令人满意结果的搜索或查询的答案。在这种升级中,开发者几乎没有投入。
数据扰乱开发人员的工作模式
由于当前的工作模式正在发生巨大的变化,网络应用开发者很可能在未来几年内担心失去工作。然而,这并不是对程序员需求降低的问题,而是对一套不同技能的需求。程序员和编码员的需求将比以往任何时候都高,但他们可能必须升级数据科学和数据分析方面的专业知识。
Web开发不再仅仅是写代码,而更多的是结构化数据,清理数据,管理数据,并确保它准备好教授算法。这些技能与十年前面向对象或web编程的含义相比有很大的不同,但在这个行业,进步是必然的。现在的趋势是用R或Matlab编写Python脚本和进行数据分析。
随着代码变得越来越丰富,对于我们现在所知道的开发人员来说,这可能意味着一个时代的结束。机器将有需要的代码在手边,他们也将知道如何整理这些片段到一个工作程序。
数据驱动的web应用程序可以带来什么
目前,理解数据仍然可以给组织带来竞争优势,但它很快将成为最低操作要求。
数据科学可以在几个领域产生真正的影响,包括生产力、效率和个性化。
生产力和虚拟助手
网络应用能够记住我们的喜好,帮助我们重新开始,这样可以节省时间和精力。人工智能可以了解我们的消费习惯、时间使用和生活方式。通过分析这些经历背后的数据,它可以提供个性化的建议,简化我们的选择。
这些应用程序有潜力成为某种私人助理、值得信赖的合作伙伴、智能数据库或智能存储库。有些应用程序会提醒你重要的任务,找出你日程表上的空白,你可以利用这些空白,甚至可以阻止某些有害的习惯,比如拖延症。
加强个性化
人工智能应用很快就会像忠实的助手一样出现在你身边,但它们也比朋友和家人更能进入你的脑海。如今,我们的智能手机已经可以根据地理位置、过去的喜好以及与特定品牌的互动,为我们提供出色的提示。
很像Netflix和Amazon,推荐引擎可以扩展到其他需要提供定制响应的web应用程序。
这不仅是消费世界的下一个潮流,也是应用开发的总体方向。iPhone X和Galaxy S8等新一代智能手机都内置了人工智能功能。
预测的影响
在web应用开发中使用数据科学所引发的变化将对消费者和开发者产生同样的影响。存储在浏览器中的cookie,以及用户在网络会话期间提供的任何数据,将成为用户偏好的暗示,以及用户与之交互的应用的定制方式。对于开发人员来说,相同的数据可以作为升级和增强的主要来源。速度、可靠性和功能仍然有很高的要求,但将用户自己的数据整合到应用的外观、感觉和功能将产生不同。
❾ 数据库的发展趋势和发展前景
数据挖掘、海量存储、数据仓库、智能商务运算、高性能并发管理与控制
主流产品的发展现状
数据库管理系统经历了30多年的发展演变,已经取得了辉煌的成就,发展成了一门内容丰富的学科,形成了总量达数百亿美元的一个软件产业。根据Gartner Dataquest公司的调查,2000年国际数据库市场销售总额达88亿美元,比1999年增长10%。根据CCID的报告,2000年的中国数据库管理系统市场销售总额达24.8亿元,比1999年增长了41.7%,占软件市场总销售额的10.8%。可见,数据库已经发展成为一个规模巨大、增长迅速的市场。
目前,市场上具有代表性的数据库产品包括Oracle公司的Oracle、IBM公司的DB2以及微软的SQL Server等。在一定意义上,这些产品的特征反映了当前数据库产业界的最高水平和发展趋势。因此,分析这些主流产品的发展现状,是我们了解数据库技术发展的一个重要方面。
关系数据库技术仍然是主流
关系数据库技术出现在20世纪70年代、经过80年代的发展到90年代已经比较成熟,在90年代初期曾一度受到面向对象数据库的巨大挑战,但是市场最后还是选择了关系数据库。无论是Oracle公司的Oracle 9i、IBM公司的DB2、还是微软的SQL Server等都是关系型数据库。Gartner Dataquest的报告显示关系数据库管理系统(RDBMS)的市场份额最大, 2000年RDBMS的市场份额占整个数据库市场的80%,这个比例比1999年增长了15%。这组数据充分说明RDBMS仍然是当今最为流行的数据库软件。当前,由于互联网应用的兴起,XML格式的数据的大量出现,学术界有一部分学者认为下一代数据库将是支持XML模型的新型的数据库。作者对此持否定态度,认为关系技术仍然是主流,无论是多媒体内容管理、XML数据支持、还是复杂对象支持等都将是在关系系统内核技术基础上的扩展。
产品形成系列化
一方面,Web和数据仓库等应用的兴起,数据的绝对量在以惊人的速度迅速膨胀;另一方面,移动和嵌入式应用快速增长。针对市场的不同需求,数据库正在朝系列化方向发展。例如IBM公司的DB2通用数据库产品包括了从高端的企业级并行数据库服务器,到移动端产品DB2 Everywhere的一整套系列。从支持平台看,今天的DB2已经不再是大型机上的专有产品,它支持目前主流的各种平台,包括Linux和Windows NT。此外,它还有各种中间件产品,如DB2 Connect、DB2 Datajointer、DB2 Replication等,构成了一个庞大的数据库家族。
支持各种互联网应用
数据库管理系统是网络经济的重要基础设施之一。支持Internet(甚至于Mobile Internet)数据库应用已经成为数据库系统的重要方面。例如,Oracle公司从8版起全面支持互联网应用,是互联网数据库的代表。微软公司更是将SQL Server作为其整个.NET计划中的一个重要的成分。对于互联网应用,由于用户数量是无法事先预测的,这就要求数据库相比以前拥有能处理更大量的数据以及为更多的用户提供服务的能力,也就是要拥有良好的可伸缩性及高可用性。此外,互联网提供大量以XML格式数据为特征的半结构化数据,支持这种类型的数据的存储、共享、管理、检索等也是各数据库厂商的发展方向。
向智能化集成化方向扩展
数据库技术的广泛使用为企业和组织收集并积累了大量的数据。数据丰富知识贫乏的现实直接导致了联机分析处理(OLAP)、数据仓库(Data Warehousing)和数据挖掘(Data Mining)等技术的出现,促使数据库向智能化方向发展。同时企业应用越来越复杂,会涉及到应用服务器、Web服务器、其它数据库、旧系统中的应用以及第三方软件等,数据库产品与这些软件是否具有良好集成性往往关系到整个系统的性能。Oracle公司的Oracle 9i 产品包括了OLAP、数据挖掘、ETL工具等一套完整的BI(商业智能)支持平台,中间件产品与其核心数据库具有紧密集成的特性,Oracle Application Server 增加的一项关键功能是高速缓存特性,该特性可以将数据从数据库卸载到应用服务器,加速 Web用户对数据的访问速度。IBM 公司也把BI套件作为其数据库的一个重点来发展。微软认为商务智能将是其下一代主要的利润点。
数据库技术的发展趋势
数据、计算机硬件和数据库应用,这三者推动着数据库技术与系统的发展。数据库要管理的数据的复杂度和数据量都在迅速增长;计算机硬件平台的发展仍然实践着摩尔定律;数据库应用迅速向深度、广度扩展。尤其是互联网的出现,极大地改变了数据库的应用环境,向数据库领域提出了前所未有的技术挑战。这些因素的变化推动着数据库技术的进步,出现了一批新的数据库技术,如Web数据库技术、并行数据库技术、数据仓库与联机分析技术、数据挖掘与商务智能技术、内容管理技术、海量数据管理技术等。限于篇幅,本文不可能逐一去展开来阐述这些方面的变化,只是从这些变化中归纳出数据库技术发展呈现出的突出特点。
“四高” 即DBMS具有高可靠性、高性能、高可伸缩性和高安全性。数据库是企业信息系统的核心和基础,其可靠性和性能是企业领导人非常关心的问题。因为,一旦宕机会给企业造成巨大的经济损失,甚至会引起法律的纠纷。最典型的例子就是证券交易系统,如果在一个行情来临的时候,由于交易量的猛增,造成数据库系统的处理能力不足,导致数据库系统崩溃,将会给证券公司和股民造成巨大的损失。在我国计算机应用的早期,由于计算机系统还不是企业运营必要的成分,人们对数据库的重要性认识不足,而且为了经费上的节约常常采用一些低层次的数据管理软件,如dBASE等,或者盗版的软件。但是,随着信息化进程的深化,计算机系统越来越成为企业运营的不可缺少的部分,这时,数据库系统的稳定和高效是必要的条件。在互联网环境下还要考虑支持几千或上万个用户同时存取和7x24小时不间断运行的要求,提供联机数据备份、容错、容灾以及信息安全措施等。
事实上,数据库系统的稳定和高效也是技术上长久不衰的追求。此外,从企业信息系统发展的角度上看,一个系统的可扩展能力也是非常重要的。由于业务的扩大,原来的系统规模和能力已经不再适应新的要求的时候,不是重新更换更高档次的机器,而是在原有的基础上增加新的设备,如处理器、存储器等,从而达到分散负载的目的。数据的安全性是另一个重要的课题,普通的基于授权的机制已经不能满足许多应用的要求,新的基于角色的授权机制以及一些安全功能要素,如存储隐通道分析、标记、加密、推理控制等,在一些应用中成为切切实实的需要。
“互联” 指数据库系统要支持互联网环境下的应用, 要支持信息系统间“互联互访”,要实现不同数据库间的数据交换和共享,要处理以XML类型的数据为代表的网上数据,甚至要考虑无线通讯发展带来的革命性的变化。与传统的数据库相比,互联网环境下的数据库系统要具备处理更大量的数据以及为更多的用户提供服务的能力,要提供对长事务的有效支持,要提供对XML类型数据的快速存取的有效支持。
“协同” 面向行业应用领域要求,在DBMS核心基础上,开发丰富的数据库套件及应用构件,通过与制造业信息化、电子政务等领域应用套件捆绑,形成以DBMS为核心的面向行业的应用软件产品家族。满足应用需求,协同发展数据库套件与应用构件,已成为当今数据库技术与产品发展的新趋势。规划中的Oracle 11i的主要扩展方面据称主要也是各种面向应用套件的支持。
❿ 数据库的发展前景怎么样
进入信息化市场,数据库的重要性日益凸显,目前数据库主要分为数据库产品、数据库服务和数据库支撑体系。我国数据库产品以关系型为主,非关系型数据库以键值型数据库为主。
金融、电信、政务、制造和互联网为我国数据库应用最为广泛的领域,但是它们的应用特点各不相同。未来,在企业崛起、国家利好政策和资本关注等因素推动下,我国数据库行业市场规模有望接近7百亿元。
本文核心数据:数据库产品分布、数据库市场规模
数据库主要分为三大类
在信息化时代,数据库已经逐渐应用于各行各业。数据库主要分为三大类:数据库产品、数据库服务和数据库支撑体系。
数据库产品主要由关系型数据库、非关系型数据库、混合型数据库及数据库周边工具构成。
数据库服务是指围绕数据库的咨询规划、实施部署和运维运营等环节,为数据库系统的正常、高效、持续、安全使用提供信息技术服务工作。
数据库支撑体系由从事数据库学术研究、人才培养、开源社区、评测认证等工作的相关主体共同构成。