当前位置:首页 » 存储配置 » 数据存储问题

数据存储问题

发布时间: 2023-02-23 10:50:02

1. B站崩溃,IPFS如何解决数据存储之痛

B站服务器突然宕机

七月十三日晚上,“b站崩盘”冲上微博热搜第三名。新闻称,B站疑似发生服务器宕机事故,页面提示称“非常抱歉,该页面暂时无法访问”。除了网站和移动端显示加载错误之外,B站出品的轻视频、剪辑软件等均无法打开,显示页面加载出错。

在经过B站崩完,一时间承载不了庞大访问量的A站也崩了。豆瓣、晋江更是紧随其后。多个app齐崩,官方给出的回应是部分服务器机房发生故障,同时多个站点出现问题,大概率是与站点没有关系,应该是和云服务器有关。在经过短暂的排除修复之后,造成崩盘的原因应该就是短时间大量重复访问和数据承载量不足的影响。

IPFS实现存储“广撒网”

以HTTP为代表的中心化存储最常见的弊端就是,网络集中式访问流量爆棚就容易导致服务器崩溃,页面丢失,并且此类事件层出不穷。

一般来说,造成“宕机事故”的4大原因为运行环境问题、服务器性能问题、复制问题或者数据丢失或损坏。那么其中的运行环境问题的大头磁盘空间耗尽与数据损坏丢失问题都可以通过高承载量、安全稳定的去中心化存储项目——IPFS来解决。

IPFS是用区块链技术打造的一个具有可信任、可溯源、不可篡改等优点的去中心化存储协议,分布式的存储形式不会因为部分存储设备毁坏而丢失数据,存储“广撒网”,安全可靠,并且数据可以实现永久存储。

更重要的是,除了解决数据存储空间的高需求量问题之外,IPFS的出现更大的意义是为了在互联网世界中找到一种更好的方式,能够捍卫用户应有的权益,比如:用户的个人信息应该得到保护。

IPFS实现用户隐私“零泄露”

7月4日晚间,一则《关于下架“滴滴出行”App的通报》的消息迅速引爆舆论。

为什么国家相关部门把安全监管的板子首先打在滴滴等公司身上?这是因为以滴滴为代表的这些互联网平台公司手中掌握了巨量的数据资源。其实早在滴滴之前,6月26日,工信部就通报,截至6月21日,APP侵害用户权益专项整治行动共检查117万款APP,对4002款违规APP提出了整改要求,公开通报1248款整改不到位的APP,组织下架329款拒不整改的APP。这些APP主要是在违规收集个人信息、违规使用个人信息、频繁向用户骚扰索权、欺骗诱导用户跳转页面四个方面,严重损害了用户的权益,侵犯了用户的数据隐私。

从宏观层面上看,数据安全相关法律在持续不断地完善中。例如,6月10日,第十三届全国人民代表大会常务委员会第二十九次会议表决通过《中华人民共和国数据安全法》,将于2021年9月1日起施行。

然而,就目前来说,以国内的数据保护相关法律还不足以保护个人信息的隐私安全,很多时候只能起到事后追责的作用。在仅依靠法律手段无法完全避免数据被违规使用甚至泄露的情况下,是否还可以通过其他手段,来共同解决隐私安全问题?

在这样的背景下,解决数据激增、存储空间需求暴涨问题的IPFS也被认为是解决用户隐私问题的最佳利器之一。

IPFS如何提供完美解决方案

当我们把一个文件存放到IPFS上时,IPFS会自动把这份文件存储到足够多的、分布全球的存储节点。这样就最大程度的实现了数据存储的去中心化,没有一台机器可以单独的掌握完整的数据。同时,这样的存储模式也可以有效防止数据损坏或丢失,一个存储节点的数据碎片丢失,在其他存储节点那里仍然可以找到其他的副本,这样就能最大限度的避免由于存储硬件的故障而导致的数据丢失,用户的数据存储更加稳定安全。

更重要的是,如果数据被篡改或损坏,IPFS系统会自动检测到。今天,各种各样的云存储提供商都没有将其用户的数据进行加密保护。即使有一些提供商增加了静态加密功能,也只是通过控制用户的加密密钥来实现的,而不是创建真正的“不知情”隐秘存储系统,这意味着客户数据可能会被黑客或其他攻击者盗用并泄露或出售,是非常危险的。用户(或他们使用的应用程序)应在将数据提供给这些云存储提供商之前就对他们的数据进行加密,而不管这些数据是否集中。

存放到IPFS的数据几乎不可能被竞争对手窃取,除了将数据进行分散式存储之外,IPFS对每一份数据文件都会进行加密,只有用密钥才能打开进行访问,而这个密钥只有用户一人拥有。黑客或者攻击者就算能够盗窃到数据,也会由于没有密钥而无法了解到其中的内容。

日渐普遍的移动设备、传感器和“智能”机器都在数字化地跟踪人们的数据,解决个人信息安全问题已刻不容缓。可以说,IPFS的存储方式开创了一种全新的安全模式,对所有的内容都进行加密,有效保证了数据的安全,保护了用户的隐私权,十分适用于解决大数据技术的存储痛点。

可以预见,在我国加强新基建力度、人工智能和万物联网高速发展的 历史 潮流下,大数据需要一种安全的存储方式,也因此,IPFS及其配套产品、服务将会拥有一个越来越广阔的市场。

2. 海量空间数据存储

(一)空间数据存储技术

随着地理信息系统的发展,空间数据库技术也得到了很大的发展,并出现了很多新的空间数据库技术(黄钊等,2003),其中应用最广的就是用关系数据库管理系统(RDBMS)来管理空间数据。

用关系数据库管理系统来管理空间数据,主要解决存储在关系数据库中的空间数据与应用程序之间的数据接口问题,即空间数据库引擎(SpatialDatabase Engine)(熊丽华等,2004)。更确切地说,空间数据库技术是解决空间数据对象中几何属性在关系数据库中的存取问题,其主要任务是:

(1)用关系数据库存储管理空间数据;

(2)从数据库中读取空间数据,并转换为GIS应用程序能够接收和使用的格式;

(3)将GIS应用程序中的空间数据导入数据库,交给关系数据库管理。

空间数据库中数据存储主要有三种模式:拓扑关系数据存储模式、Oracle Spatial模式和ArcSDE模式。拓扑关系数据存储模式将空间数据存在文件中,而将属性数据存在数据库系统中,二者以一个关键字相连。这样分离存储的方式由于存在数据的管理和维护困难、数据访问速度慢、多用户数据并发共享冲突等问题而不适用于大型空间数据库的建设。而OracleSpatial实际上只是在原来的数据库模型上进行了空间数据模型的扩展,实现的是“点、线、面”等简单要素的存储和检索,所以它并不能存储数据之间复杂的拓扑关系,也不能建立一个空间几何网络。ArcSDE解决了这些问题,并利用空间索引机制来提高查询速度,利用长事务和版本机制来实现多用户同时操纵同一类型数据,利用特殊的表结构来实现空间数据和属性数据的无缝集成等(熊丽华等,2004)。

ArcSDE是ESRI公司开发的一个中间件产品,所谓中间件是一个软件,它允许应用元素通过网络连接进行互操作,屏蔽其下的通讯协议、系统结构、操作系统、数据库和其他应用服务。中间件位于客户机/服务器的操作系统之上,管理计算资源和网络通讯,并营造出一个相对稳定的高层应用环境,使开发人员可以集中精力于系统的上层开发,而不用过多考虑系统分布式环境下的移植性和通讯能力。因此,中间件能无缝地连入应用开发环境中,应用程序可以很容易地定位和共享中间件提供的应用逻辑和数据,易于系统集成。在分布式的网络环境下,客户端的应用程序如果要访问网络上某个服务器的信息,而服务器可能运行在不同于客户端的操作系统和数据库系统中。此时,客户机的应用程序中负责寻找数据的部分只需要访问一个数据访问中间件,由该中间件完成网络中数据或服务的查找,然后将查找的信息返回给客户端(万定生等,2003)。因此,本系统实现空间数据库存储的基本思想就是利用ArcSDE实现各类空间数据的存储。

目前,空间数据存储技术已比较成熟,出现了许多类似ArcSDE功能的中间件产品,这些软件基本上都能实现空间数据的数据库存储与管理,但对于海量空间数据的存储,各种软件性能差别较大。随着数据量的增长,计算机在分析处理上会产生很多问题,比如数据不可能一次完全被读入计算机的内存中进行处理。单纯依赖于硬件技术,并不能满足持续增长的数据的处理要求。因此需要在软件上找到处理海量数据的策略,并最终通过软硬件的结合完成对海量数据的处理。在海量数据存储问题上,许多专家从不同侧面进行过研究,Lindstrom在地形简化中使用了外存模型(Out-of-core)技术;钟正采用了基于数据分块、动态调用的策略;汪国平等人在研究使用高速网络进行三维海量地形数据的实时交互浏览中,采用了分块、多分辨率模板建立模型等方法。这些技术、方法已经在各自系统上进行了研究和实现。本系统采用的ArcSDE软件基本上也是采用分块模型的方法,具体存储和操作不需要用户过多了解,已经由ArcSDE软件实现。因此,对海量数据的存储管理,更需要从数据的组织方式等方面进行设计。塔里木河流域生态环境动态监测系统采集了大量的遥感影像、正射影像等栅格结构的数据,这些数据具有很大的数据量,为适应流域空间基础设施的管理需要,采取一种新的方式来管理、分发这些海量数据以适应各部门的快速浏览和管理需要。

(二)影像金字塔结构

影像数据库的组织是影像数据库效率的关键,为了获得高效率的存取速度,在数据的组织上使用了金字塔数据结构和网格分块数据结构。该技术主导思想如下:

(1)将数据库中使用到的纹理处理成为大小一致的纹理块;

(2)为每块纹理生成5个细节等级的纹理,分别为0、1、2、3、4,其中1级纹理通过0级纹理1/4压缩得到,2级纹理通过1级纹理1/4压缩得到,…,以此类推;

(3)在显示每个块数据之前,根据显示比例的大小,并以此决定该使用那一级的纹理;

(4)在内存中建立纹理缓冲池,使用LRU算法进行纹理块的调度,确保使用频率高的纹理调度次数尽可能少。

(三)影像数据压缩

影像数据压缩有无损压缩和有损压缩两个方法,具体采取哪种压缩方法需根据具体情况确定。对于像元值很重要的数据,如分类数据、分析数据等采用无损压缩(即LZ77算法),否则采用有损压缩(即JPEG算法)。通过对影像数据的压缩,一方面可以节约存储空间,另一方面可以加快影像的读取和显示速度。影像数据的压缩一般与构建金字塔同时进行,在构建影像金字塔过程中自动完成数据的压缩。

3. 大数据量数据存储问题

杉岩数据专注数据存储解决方案,面对大数据,人工智能带来的海量数据存储挑战,杉岩海量对象存储MOS提供完美解决方案,
SandStone MOS是兼具企业级存储能力和智能检索处理能力的对象存储产品。新一代的存储引擎基于标准服务器构建一个可以线性扩展、几乎没有容量上限的跨地域存储架构,在提供高可靠和高可用服务能力的同时,集成了数据智能处理和分析能力,简化了海量数据处理所需的基础设施,以大幅提升数据处理的效率。

4. 数据库解决了数据从逻辑结构到物理结构的存储问题对吗

数据结构有哪些》一节讲到,数据的存储方式可分为线性表、树和图三种存储结构,而每种存储结构又可细分为顺序存储结构和链式存储结构。数据存储方式如此之多,针对不同类型的数据选择合适的存储方式是至关重要的。

那么,到底如何选择呢?数据存储结构的选择取决于两方面,即数据的逻辑结构和存储结构(又称物理结构)。
逻辑结构
数据的逻辑结构,简单地理解,就是指的数据之间的逻辑关系。

家庭成员关系图
图 1 家庭成员关系图

例如,图 1 显示是一张家庭的成员关系图,从图中可以看到,张平、张华和张群是兄弟,他们的父亲是张亮,其中张平有两个儿子,分别是张晶和张磊。

以上所说,父子、兄弟等这些关系都指的是数据间的逻辑关系,假设我们要存储这样一张家庭成员关系图,不仅要存储张平、张华等数据,还要存储它们之间的关系,两者缺一不可。
一组数据成功存储到计算机的衡量标准是要能将其完整的复原。例如图 1 所示的成员关系图,如果所存储的数据能将此成员关系图彻底复原,则说明数据存储成功。

“多对多”关系示意图
图 2 “多对多”关系示意图

数据之间的逻辑关系可细分为三类,“一对一”、“一对多”和“多对多”:
“一对一”:类似集合 {1,2,3,...,n} 这类的数据,每个数据的左侧有且仅有一个数据与其相邻(除 1 外);同样,每个数据的右侧也只有一个数据与其相邻(除 n 外),所有的数据都是如此,就说数据之间是“一对一”的逻辑关系;
“一对多”:图 1 中的数据就属于“一对多”,因为对于张平来说,有且仅有一个父亲(张亮),但是有 2(多)个孩子;
“多对多”:拿图 2 来说,从 V1 可以到达 V2、V3、V4,同样,从 V2、V3、V4 也可以到达 V1,对于V1、V2、V3和V4来说,它们之间就是“多对多”的关系;

通过学习数据结构,我们可以学到 3 种存储结构分别存储这 3 类逻辑关系的数据,换句话说:
线性表用于存储具有“一对一”逻辑关系的数据;
树结构用于存储具有“一对多”关系的数据;
图结构用于存储具有“多对多”关系的数据;

由此,我们可以通过分析数据之间的逻辑关系来决定使用哪种存储结构,但具体使用顺序存储还是链式存储,还要通过数据的物理结构来决定。
存储结构(物理结构)
数据的存储结构,也就是物理结构,指的是数据在物理存储空间上选择集中存放还是分散存放。假设要存储大小为 10G 的数据,则集中存放就如图 3a) 所示,分散存放就如图 3b)所示。

数据的物理存储方式
图 3 数据的物理存储方式

如果选择集中存储,就使用顺序存储结构;反之,就使用链式存储。至于如何选择,主要取决于存储设备的状态以及数据的用途。

我们知道,集中存储(底层实现使用的是数组)需要使用一大块连续的物理空间,假设要存储大小为 1G 的数据,若存储设备上没有整块大小超过 1G 的空间,就无法使用顺序存储,此时就要选择链式存储,因为链式存储是随机存储数据,占用的都是存储设备中比较小的存储空间,因此有一定几率可以存储成功。

并且,数据的用途不同,选择的存储结构也不同。将数据进行集中存储有利于后期对数据进行遍历操作,而分散存储更有利于后期增加或删除数据。因此,如果后期需要对数据进行大量的检索(遍历),就选择集中存储;反之,若后期需要对数据做进一步更新(增加或删除),则选择分散存储。

5. 大数据存储的常见问题是什么

数据存储的常见问题是存储空间的问题,需要有大容量的存储空间

热点内容
twrp哪个版本支持安卓11 发布:2025-07-10 18:59:22 浏览:848
串口服务器虚拟ip 发布:2025-07-10 18:57:18 浏览:173
vue引入ftp 发布:2025-07-10 18:24:07 浏览:971
ups蓄电池如何配置 发布:2025-07-10 18:15:31 浏览:984
三星手机初始密码是多少啊 发布:2025-07-10 18:10:49 浏览:776
固定服务器的地址 发布:2025-07-10 17:59:10 浏览:53
数据库堆表 发布:2025-07-10 17:57:17 浏览:164
服务器一般要求配置动态ip地址 发布:2025-07-10 17:46:17 浏览:444
主机什么配置可以玩原神 发布:2025-07-10 17:45:23 浏览:744
java学习平台 发布:2025-07-10 17:35:51 浏览:801