海量數據的存儲管理
Ⅰ 海量數據存儲與管理
正如上述,在國土資源遙感綜合調查信息中,既包含有多源、多時相、多尺度、多解析度、多類型的遙感圖像數據和基礎地理數據,也包括在項目開展過程中衍生的許多觀測和分析資料,數據量十分龐大。因此,根據數據共享的要求,在數據生產、管理、應用服務以及更新和維護過程中,如何組織和管理好這些海量數據,如何快速、全面有效地訪問和獲得所需數據,成為面臨的突出問題。在這里,採用何種方式利用現有的大型商業化關系資料庫系統高效地存儲與管理這些數據,成為能否發揮系統最大性能的關鍵所在。
傳統的GIS系統對空間數據(與空間位置、空間關系有關的數據)的存儲與管理大多採用這些商業軟體特定的文件方式,如:ArcInfo的Coverage、MapInfo的Tab、MAPGIS的WL等。如果數據量越多,這些文件就會越大,數據的處理就會越復雜,其存儲、檢索、管理也就越困難,而且其最大的缺點還在於不能進行多用戶並發操作。由此可見,用以往傳統的存儲機制去管理像遙感綜合調查這樣的海量數據,顯然難以滿足要求。而近年來發展起來的空間資料庫引擎技術則是解決海量數據存儲管理的途徑之一。
本系統建設過程中,採用了空間資料庫引擎ArcSDE+大型關系資料庫Oracle組合技術,較理想地實現了遙感綜合調查海量數據的存儲、檢索、查詢、處理。眾所周知,Oracle提供了大型資料庫環境,能夠很好地處理海量數據,而ArcSDE可將具有地理特徵的空間數據和非空間數據統一載入到Oracle中去,因此,通過ArcSDE空間資料庫引擎,可將Oracle海量數據管理功能載入到GIS系統中,並可利用Oracle的強大管理機制進行高效率的事務處理、記錄鎖定、並發控制等服務操作。
Ⅱ 澶ф暟鎹鐨勫瓨鍌ㄥ拰綆$悊涓昏佸寘鎷鍝鍑犳柟闈㈢殑鍏抽敭鎶鏈錛
澶ф暟鎹鍦ㄥ瓨鍌ㄥ拰綆$悊鏃剁敤鍒扮殑鍏抽敭鎶鏈涓昏佸寘鎷錛
- 鍒嗗竷寮忓瓨鍌ㄦ妧鏈錛氬侶adoop鐨凥DFS錛岃兘澶熷皢鏁版嵁鍒嗘暎鍦板瓨鍌ㄥ湪澶氫釜鑺傜偣涓婏紝浠庤屽疄鐜板規搗閲忔暟鎹鐨勫勭悊銆
- 鍒嗗竷寮忚$畻妗嗘灦錛氬侶adoop鐨凪apRece錛岃兘澶熷湪澶ч噺璁$畻鏈洪泦緹や笂騫惰屽湴澶勭悊澶ф暟鎹錛屽疄鐜板ぇ鏁版嵁鐨勫揩閫熷垎鏋愩
- 鏁版嵁鎸栨帢鍜屾満鍣ㄥ︿範綆楁硶錛氬ぇ鏁版嵁鐨勬寲鎺樺拰鍒嗘瀽闇瑕佷緷璧栦簬楂樻晥鐨勬暟鎹鎸栨帢鍜屾満鍣ㄥ︿範綆楁硶錛屽係cikit-learn銆乀ensorFlow絳夈
- 鏁版嵁鍘嬬緝鎶鏈錛氬ぇ鏁版嵁鐨勫瓨鍌ㄥ拰綆$悊闇瑕佹秷鑰楀ぇ閲忕殑瀛樺偍絀洪棿鍜岃$畻璧勬簮錛屽洜姝ら渶瑕佷嬌鐢ㄦ暟鎹鍘嬬緝鎶鏈鏉ュ噺灝忔暟鎹鐨勫ぇ灝忥紝鎻愰珮鏁版嵁瀛樺偍鍜屽勭悊鐨勬晥鐜囥
浠ヤ笂榪欎簺鍏抽敭鎶鏈鏋勬垚浜嗗ぇ鏁版嵁瀛樺偍鍜岀$悊鐨勫熀紜錛岄氳繃榪欎簺鎶鏈鐨勭粨鍚堝簲鐢錛屽彲浠ュ疄鐜版搗閲忔暟鎹鐨勫勭悊鍜屽垎鏋愶紝涓虹幇浠d俊鎮鍖栫ぞ浼氭彁渚涘己澶х殑鎶鏈鏀鎸併
Ⅲ 海量數據存儲
存儲技術經歷了單個磁碟、磁帶、RAID到網路存儲系統的發展歷程。網路存儲技術就是將網路技術和I/O技術集成起來,利用網路的定址能力、即插即用的連接性、靈活性,存儲的高性能和高效率,提供基於網路的數據存儲和共享服務。在超大數據量的存儲管理、擴展性方面具有明顯的優勢。
典型的網路存儲技術有網路附加存儲NAS(Network Attached Storage)和存儲區域網SAN(Storage Area Networks)兩種。
1)NAS技術是網路技術在存儲領域的延伸和發展。它直接將存儲設備掛在網上,有良好的共享性、開放性。缺點是與LAN共同用物理網路,易形成擁塞,而影響性能。特別是在數據備份時,性能較低,影響在企業存儲應用中的地位。
2)SAN技術是以數據存儲為中心,使用光纖通道連接高速網路存儲的體系結構。即將數據存儲作為網路上的一個區域獨立出來。在高度的設備和數據共享基礎上,減輕網路和伺服器的負擔。因光纖通道的存儲網和LAN分開,使性能得到很大的提高,而且還提供了很高的可靠性和強大的連續業務處理能力。在SAN中系統的擴展、數據遷移、數據本地備份、遠程數據容災數據備份和數據管理等都比較方便,整個SAN成為一個統一管理的存儲池(Storage Pool)。SAN存儲設備之間通過專用通道進行通信,不佔用伺服器的資源。因此非常適合超大量數據的存儲,成為網路存儲的主流。
3)存儲虛擬化技術是將系統中各種異構的存儲設備映射為一個單一的存儲資源,對用戶完全透明,達到互操作性的目的和利用已有的硬體資源,把SAN內部的各種異構的存儲資源統一成一個單一視圖的存儲池,可根據用戶的需要方便地切割、分配。從而保持已有的投資,減少總體成本,提高存儲效率。
存儲虛擬化包括3個層次結構:基於伺服器的虛擬化存儲、基於存儲設備的虛擬化存儲和基於網路的虛擬化存儲。
1)基於伺服器的虛擬化存儲由邏輯管理軟體在主機/伺服器上完成。經過虛擬化的存儲空間可跨越多個異構的磁碟陣列,具有高度的穩定性和開放性,實現容易、簡便。但對異構環境和分散管理不太適應。
2)基於存儲設備的虛擬化存儲,因一些高端磁碟陣列本身具有智能化管理,可以實現同一陣列,供不同主機分享。其結構性能可達到最優。但實現起來價格昂貴,可操作性差。
3)基於網路的虛擬化存儲,通過使用專用的存儲管理伺服器和相應的虛擬化軟體,實現多個主機/伺服器對多個異構存儲設備之間進行訪問,達到不同主機和存儲之間真正的互連和共享,成為虛擬存儲的主要形式。根據不同結構可分為基於專用伺服器和基於存儲路由器兩種方式。①基於專用伺服器的虛擬化,是用一台伺服器專用於提供系統的虛擬化功能。根據網路拓撲結構和專用伺服器的具體功能,其虛擬化結構有對稱和非對稱兩種方式。在對稱結構中數據的傳輸與元數據訪問使用同一通路。實現簡單,對伺服器和存儲設備的影響小,對異構環境的適應性強。缺點是專用伺服器可能成為系統性能的瓶頸,影響SAN的擴展。在非對稱結構中,數據的傳輸與元數據訪問使用不同通路。應用伺服器的I/O命令先通過命令通路傳送到專用伺服器,獲取元數據和傳輸數據視圖後,再通過數據通路得到所需的數據。與對稱結構相比,提高了存儲系統的性能,增加了擴展能力。②基於存儲路由器的SAN虛擬化,存儲路由器是一種智能化設備,既具有路由器的功能,又針對I/O進行專門優化。它部署在存儲路由器上,多個存儲路由器保存著整個存儲系統中的元數據多個副本,並通過一定的更新策略保持一致性。這種結構中,因存儲路由器具有強大的協議功能,所以具有更多的優勢。能充分利用存儲資源,保護投資。能實現軟硬體隔離,並輔有大量的自動化工具,提高了虛擬伺服器的安全性,降低對技術人員的需求和成本。