海量数据的存储管理
Ⅰ 海量数据存储与管理
正如上述,在国土资源遥感综合调查信息中,既包含有多源、多时相、多尺度、多分辨率、多类型的遥感图像数据和基础地理数据,也包括在项目开展过程中衍生的许多观测和分析资料,数据量十分庞大。因此,根据数据共享的要求,在数据生产、管理、应用服务以及更新和维护过程中,如何组织和管理好这些海量数据,如何快速、全面有效地访问和获得所需数据,成为面临的突出问题。在这里,采用何种方式利用现有的大型商业化关系数据库系统高效地存储与管理这些数据,成为能否发挥系统最大性能的关键所在。
传统的GIS系统对空间数据(与空间位置、空间关系有关的数据)的存储与管理大多采用这些商业软件特定的文件方式,如:ArcInfo的Coverage、MapInfo的Tab、MAPGIS的WL等。如果数据量越多,这些文件就会越大,数据的处理就会越复杂,其存储、检索、管理也就越困难,而且其最大的缺点还在于不能进行多用户并发操作。由此可见,用以往传统的存储机制去管理像遥感综合调查这样的海量数据,显然难以满足要求。而近年来发展起来的空间数据库引擎技术则是解决海量数据存储管理的途径之一。
本系统建设过程中,采用了空间数据库引擎ArcSDE+大型关系数据库Oracle组合技术,较理想地实现了遥感综合调查海量数据的存储、检索、查询、处理。众所周知,Oracle提供了大型数据库环境,能够很好地处理海量数据,而ArcSDE可将具有地理特征的空间数据和非空间数据统一加载到Oracle中去,因此,通过ArcSDE空间数据库引擎,可将Oracle海量数据管理功能加载到GIS系统中,并可利用Oracle的强大管理机制进行高效率的事务处理、记录锁定、并发控制等服务操作。
Ⅱ 澶ф暟鎹镄勫瓨鍌ㄥ拰绠$悊涓昏佸寘𨰾鍝鍑犳柟闱㈢殑鍏抽敭鎶链锛
澶ф暟鎹鍦ㄥ瓨鍌ㄥ拰绠$悊镞剁敤鍒扮殑鍏抽敭鎶链涓昏佸寘𨰾锛
- 鍒嗗竷寮忓瓨鍌ㄦ妧链锛氩侣adoop镄凥DFS锛岃兘澶熷皢鏁版嵁鍒嗘暎鍦板瓨鍌ㄥ湪澶氢釜鑺傜偣涓婏纴浠庤屽疄鐜板规捣閲忔暟鎹镄勫勭悊銆
- 鍒嗗竷寮忚$畻妗嗘灦锛氩侣adoop镄凪apRece锛岃兘澶熷湪澶ч噺璁$畻链洪泦缇や笂骞惰屽湴澶勭悊澶ф暟鎹锛屽疄鐜板ぇ鏁版嵁镄勫揩阃熷垎鏋愩
- 鏁版嵁鎸栨帢鍜屾満鍣ㄥ︿範绠楁硶锛氩ぇ鏁版嵁镄勬寲鎺桦拰鍒嗘瀽闇瑕佷緷璧栦簬楂樻晥镄勬暟鎹鎸栨帢鍜屾満鍣ㄥ︿範绠楁硶锛屽係cikit-learn銆乀ensorFlow绛夈
- 鏁版嵁铡嬬缉鎶链锛氩ぇ鏁版嵁镄勫瓨鍌ㄥ拰绠$悊闇瑕佹秷钥楀ぇ閲忕殑瀛桦偍绌洪棿鍜岃$畻璧勬簮锛屽洜姝ら渶瑕佷娇鐢ㄦ暟鎹铡嬬缉鎶链𨱒ュ噺灏忔暟鎹镄勫ぇ灏忥纴鎻愰珮鏁版嵁瀛桦偍鍜屽勭悊镄勬晥鐜囥
浠ヤ笂杩欎簺鍏抽敭鎶链鏋勬垚浜嗗ぇ鏁版嵁瀛桦偍鍜岀$悊镄勫熀纭锛岄氲繃杩欎簺鎶链镄勭粨钖埚簲鐢锛屽彲浠ュ疄鐜版捣閲忔暟鎹镄勫勭悊鍜屽垎鏋愶纴涓虹幇浠d俊鎭鍖栫ぞ浼氭彁渚涘己澶х殑鎶链鏀鎸併
Ⅲ 海量数据存储
存储技术经历了单个磁盘、磁带、RAID到网络存储系统的发展历程。网络存储技术就是将网络技术和I/O技术集成起来,利用网络的寻址能力、即插即用的连接性、灵活性,存储的高性能和高效率,提供基于网络的数据存储和共享服务。在超大数据量的存储管理、扩展性方面具有明显的优势。
典型的网络存储技术有网络附加存储NAS(Network Attached Storage)和存储区域网SAN(Storage Area Networks)两种。
1)NAS技术是网络技术在存储领域的延伸和发展。它直接将存储设备挂在网上,有良好的共享性、开放性。缺点是与LAN共同用物理网络,易形成拥塞,而影响性能。特别是在数据备份时,性能较低,影响在企业存储应用中的地位。
2)SAN技术是以数据存储为中心,使用光纤通道连接高速网络存储的体系结构。即将数据存储作为网络上的一个区域独立出来。在高度的设备和数据共享基础上,减轻网络和服务器的负担。因光纤通道的存储网和LAN分开,使性能得到很大的提高,而且还提供了很高的可靠性和强大的连续业务处理能力。在SAN中系统的扩展、数据迁移、数据本地备份、远程数据容灾数据备份和数据管理等都比较方便,整个SAN成为一个统一管理的存储池(Storage Pool)。SAN存储设备之间通过专用通道进行通信,不占用服务器的资源。因此非常适合超大量数据的存储,成为网络存储的主流。
3)存储虚拟化技术是将系统中各种异构的存储设备映射为一个单一的存储资源,对用户完全透明,达到互操作性的目的和利用已有的硬件资源,把SAN内部的各种异构的存储资源统一成一个单一视图的存储池,可根据用户的需要方便地切割、分配。从而保持已有的投资,减少总体成本,提高存储效率。
存储虚拟化包括3个层次结构:基于服务器的虚拟化存储、基于存储设备的虚拟化存储和基于网络的虚拟化存储。
1)基于服务器的虚拟化存储由逻辑管理软件在主机/服务器上完成。经过虚拟化的存储空间可跨越多个异构的磁盘阵列,具有高度的稳定性和开放性,实现容易、简便。但对异构环境和分散管理不太适应。
2)基于存储设备的虚拟化存储,因一些高端磁盘阵列本身具有智能化管理,可以实现同一阵列,供不同主机分享。其结构性能可达到最优。但实现起来价格昂贵,可操作性差。
3)基于网络的虚拟化存储,通过使用专用的存储管理服务器和相应的虚拟化软件,实现多个主机/服务器对多个异构存储设备之间进行访问,达到不同主机和存储之间真正的互连和共享,成为虚拟存储的主要形式。根据不同结构可分为基于专用服务器和基于存储路由器两种方式。①基于专用服务器的虚拟化,是用一台服务器专用于提供系统的虚拟化功能。根据网络拓扑结构和专用服务器的具体功能,其虚拟化结构有对称和非对称两种方式。在对称结构中数据的传输与元数据访问使用同一通路。实现简单,对服务器和存储设备的影响小,对异构环境的适应性强。缺点是专用服务器可能成为系统性能的瓶颈,影响SAN的扩展。在非对称结构中,数据的传输与元数据访问使用不同通路。应用服务器的I/O命令先通过命令通路传送到专用服务器,获取元数据和传输数据视图后,再通过数据通路得到所需的数据。与对称结构相比,提高了存储系统的性能,增加了扩展能力。②基于存储路由器的SAN虚拟化,存储路由器是一种智能化设备,既具有路由器的功能,又针对I/O进行专门优化。它部署在存储路由器上,多个存储路由器保存着整个存储系统中的元数据多个副本,并通过一定的更新策略保持一致性。这种结构中,因存储路由器具有强大的协议功能,所以具有更多的优势。能充分利用存储资源,保护投资。能实现软硬件隔离,并辅有大量的自动化工具,提高了虚拟服务器的安全性,降低对技术人员的需求和成本。