海量數據存儲技術
1. 互聯網如何海量存儲數據
目前存儲海量數據的技術主要包括NoSQL、分布式文件系統、和傳統關系型資料庫。隨著互聯網行業不斷的發展,產生的數據量越來越多,並且這些數據的特點是半結構化和非結構化,數據很可能是不精確的,易變的。這樣傳統關系型資料庫就無法發揮它的優勢。因此,目前互聯網行業偏向於使用NoSQL和分布式文件系統來存儲海量數據。
下面介紹下常用的NoSQL和分布式文件系統。
NoSQL
互聯網行業常用的NoSQL有:HBase、MongoDB、Couchbase、LevelDB。
HBase是Apache Hadoop的子項目,理論依據為Google論文 Bigtable: A Distributed Storage System for Structured Data開發的。HBase適合存儲半結構化或非結構化的數據。HBase的數據模型是稀疏的、分布式的、持久穩固的多維map。HBase也有行和列的概念,這是與RDBMS相同的地方,但卻又不同。HBase底層採用HDFS作為文件系統,具有高可靠性、高性能。
MongoDB是一種支持高性能數據存儲的開源文檔型資料庫。支持嵌入式數據模型以減少對資料庫系統的I/O、利用索引實現快速查詢,並且嵌入式文檔和集合也支持索引,它復制能力被稱作復制集(replica set),提供了自動的故障遷移和數據冗餘。MongoDB的分片策略將數據分布在伺服器集群上。
Couchbase這種NoSQL有三個重要的組件:Couchbase伺服器、Couchbase Gateway、Couchbase Lite。Couchbase伺服器,支持橫向擴展,面向文檔的資料庫,支持鍵值操作,類似於SQL查詢和內置的全文搜索;Couchbase Gateway提供了用於RESTful和流式訪問數據的應用層API。Couchbase Lite是一款面向移動設備和「邊緣」系統的嵌入式資料庫。Couchbase支持千萬級海量數據存儲
分布式文件系統
如果針對單個大文件,譬如超過100MB的文件,使用NoSQL存儲就不適當了。使用分布式文件系統的優勢在於,分布式文件系統隔離底層數據存儲和分布的細節,展示給用戶的是一個統一的邏輯視圖。常用的分布式文件系統有Google File System、HDFS、MooseFS、Ceph、GlusterFS、Lustre等。
相比過去打電話、發簡訊、用彩鈴的「老三樣」,移動互聯網的發展使得人們可以隨時隨地通過刷微博、看視頻、微信聊天、瀏覽網頁、地圖導航、網上購物、外賣訂餐等,這些業務的海量數據都構建在大規模網路雲資源池之上。當14億中國人把衣食住行搬上移動互聯網的同時,也給網路雲資源池帶來巨大業務挑戰。
首先,用戶需求動態變化,傳統業務流量主要是端到端模式,較為穩定;而互聯網流量易受熱點內容牽引,數據流量流向復雜和規模多變:比如雙十一購物狂潮,電商平台訂單創建峰值達到58.3萬筆,要求通信網路提供高並發支持;又如優酷春節期間有超過23億人次上網刷劇、抖音拜年短視頻增長超10倍,需要通信網路能夠靈活擴充帶寬。面對用戶動態多變的需求,通信網路需要具備快速洞察和響應用戶需求的能力,提供高效、彈性、智能的數據服務。
「隨著通信網路管道十倍百倍加粗、節點數從千萬級逐漸躍升至百億千億級,如何『接得住、存得下』海量數據,成為網路雲資源池建設面臨的巨大考驗」,李輝表示。一直以來,作為新數據存儲首倡者和引領者,浪潮存儲攜手通信行業用戶,不斷 探索 提速通信網路雲基礎設施的各種姿勢。
早在2018年,浪潮存儲就參與了通信行業基礎設施建設,四年內累計交付約5000套存儲產品,涵蓋全快閃記憶體儲、高端存儲、分布式存儲等明星產品。其中在網路雲建設中,浪潮存儲已連續兩年兩次中標全球最大的NFV網路雲項目,其中在網路雲二期建設中,浪潮存儲提供數千節點,為上層網元、應用提供高效數據服務。在最新的NFV三期項目中,浪潮存儲也已中標。
能夠與通信用戶在網路雲建設中多次握手,背後是浪潮存儲的持續技術投入與創新。浪潮存儲6年內投入超30億研發經費,開發了業界首個「多合一」極簡架構的浪潮並行融合存儲系統。此存儲系統能夠統籌管理數千個節點,實現性能、容量線性擴展;同時基於浪潮iTurbo智能加速引擎的智能IO均衡、智能資源調度、智能元數據管理等功能,與自研NVMe SSD快閃記憶體檔進行系統級別聯調優化,讓百萬級IO均衡落盤且路徑更短,將存儲系統性能發揮到極致。
「為了確保全球最大規模的網路雲正常上線運行,我們聯合用戶對存儲集群展開了長達數月的魔鬼測試」,浪潮存儲工程師表示。網路雲的IO以虛擬機數據和上層應用數據為主,浪潮按照每個存儲集群支持15000台虛機進行配置,分別對單卷隨機讀寫、順序寫、混合讀寫以及全系統隨機讀寫的IO、帶寬、時延等指標進行了360無死角測試,達到了通信用戶提出的單卷、系統性能不低於4萬和12萬IOPS、時延小於3ms的要求,產品成熟度得到了驗證。
以通信行業為例,2020年全國移動互聯網接入流量1656億GB,相當於中國14億人每人消耗118GB數據;其中春節期間,移動互聯網更是創下7天消耗36億GB數據流量的記錄,還「捎帶」打了548億分鍾電話、發送212億條簡訊……海量實時數據洪流,在網路雲資源池(NFV)支撐下收放自如,其中分布式存儲平台發揮了作用。如此樣板工程,其巨大示範及拉動作用不言而喻。
2. 海量數據存儲有哪些方式與方法
杉岩海量對象存儲MOS,針對海量非結構化數據存儲的最優化解決方案,採用去中心化、分布式技術架構,支持百億級文件及EB級容量存儲,
具備高效的數據檢索、智能化標簽和分析能力,輕松應對大數據和雲時代的存儲挑戰,為企業發展提供智能決策。
1、容量可線性擴展,單名字空間達EB級
SandStone MOS可在單一名字空間下實現海量數據存儲,支持業務無感知的存儲伺服器橫向擴容,為爆炸式增長的視頻、音頻、圖片、文檔等不同類型的非結構化數據提供完美的存儲方案,規避傳統NAS存儲的單一目錄或文件系統存儲空間無法彈性擴展難題
2、海量小文件存儲,百億級文件高效訪問
SandStone MOS基於完全分布式的數據和元數據存儲架構,為海量小文件存儲而生,將企業級NAS存儲的千萬文件量級提升至互聯網規模的百億級別,幫助企業從容應對幾何級增長的海量小文件挑戰。
3、中心靈活部署,容災匯聚分發更便捷
SandStone MOS支持多數據中心靈活部署,為企業數據容災、容災自動切換、多分支機構、數據就近訪問等場景提供可自定義的靈活解決方案,幫助企業實現跨地域多活容災、數據流轉、就近讀寫等,助力業務高速發展。
4、支持大數據和AI,統一數據存儲和分析
SandStone MOS內置文件智能化處理引擎,實現包括語音識別、圖片OCR識別、文件格式轉換等批量處理功能,結合標簽檢索能力還可實現語音、證件照片檢索,從而幫助企業更好地管理非結構化數據。同時,SandStone MOS還支持與Hadoop、Spark等大數據分析平台對接,一套存儲即可滿足企業數據存儲、管理和挖掘的需求。
3. 傳統的單計算機是否能儲量海量數據
海量數據存儲方式概述
隨著信息技術的飛速發展,數據爆炸已成為一個突出問題、海量數據存儲和管理技術已經是近幾年的研究熱點之一。傳統的數據存儲與管理方式已經很難滿足海量數據存儲在在容量、性能、存儲效率和安全性等方面的要求。而且大部分數據採集系統。比如雷達回波信號數據採集、數字視頻信號處理及高碼率衛星數據信號的採集等、都要求對數據進行實時的傳輸與存儲。這就對數據採集存儲系統的採集速率、傳輸速度、存儲速度、存儲容量以及數據存儲的可靠性等方面提出了更高的要求。因此、對高速海量數據存儲技術的研究就越發顯得重要。近年來,海量數據存儲技術發展迅速、各種各樣的存儲系統不斷涌現。下面就從存儲介質、存儲模式兩個方面對海量數據存儲技術進行簡要的介紹。
海量存儲介質主要有磁帶、光碟、硬碟三大類。並在這三種儲介質的基礎上分別構成了磁帶機、光碟庫、磁碟陣列三種主要的存儲設備。此外,固態存儲和全息存儲是未來高速海量數據存儲的重要發展趨勢。磁帶機以其廉價的優勢應用普遍。光碟庫適用於保存多媒體數據和用於聯機檢索。應用也越來越廣泛,磁碟陣列由於能夠提供較高的存取速度和數據可靠性而成為實現高速海量數據存儲的主要方式。
從數據存儲的模式來看,海量存儲技術可以分為DAS(Direct Attached Storage。直接附加存儲)和網路存儲兩種,其中網路存儲又可以分為NAS(Network Attached storage, 網路附加存儲)和SAN(Storage Area Net、 Work,存儲區域網路) 。
、1、DAS採用的方式是外部數據存儲設備直接掛接在伺服器內部匯流排上(這樣I,O會佔用系統帶寬) 。存儲設備是伺服器結構的一部分。這種方案是傳統的存儲方式。主要在個人計算機和小型伺服器上使用,只能滿足數據存儲量較低的應用。不直接支持多機共享存儲。 DAS與NAS最大的不同便是。 DAS通過伺服器與網路連接、 NA S直接與網路連
接。磁帶機與磁碟陣列系統就是典型的DAS設備。
(2)NA S實際上是一個網路的附加存儲設備、它通過集線器或交換機直接連接在網路上。通過TCP、 IP協議進行通信、面向消息傳遞。 以文件的方式進行數
4. 海量空間數據存儲
(一)空間數據存儲技術
隨著地理信息系統的發展,空間資料庫技術也得到了很大的發展,並出現了很多新的空間資料庫技術(黃釗等,2003),其中應用最廣的就是用關系資料庫管理系統(RDBMS)來管理空間數據。
用關系資料庫管理系統來管理空間數據,主要解決存儲在關系資料庫中的空間數據與應用程序之間的數據介面問題,即空間資料庫引擎(SpatialDatabase Engine)(熊麗華等,2004)。更確切地說,空間資料庫技術是解決空間數據對象中幾何屬性在關系資料庫中的存取問題,其主要任務是:
(1)用關系資料庫存儲管理空間數據;
(2)從資料庫中讀取空間數據,並轉換為GIS應用程序能夠接收和使用的格式;
(3)將GIS應用程序中的空間數據導入資料庫,交給關系資料庫管理。
空間資料庫中數據存儲主要有三種模式:拓撲關系數據存儲模式、Oracle Spatial模式和ArcSDE模式。拓撲關系數據存儲模式將空間數據存在文件中,而將屬性數據存在資料庫系統中,二者以一個關鍵字相連。這樣分離存儲的方式由於存在數據的管理和維護困難、數據訪問速度慢、多用戶數據並發共享沖突等問題而不適用於大型空間資料庫的建設。而OracleSpatial實際上只是在原來的資料庫模型上進行了空間數據模型的擴展,實現的是「點、線、面」等簡單要素的存儲和檢索,所以它並不能存儲數據之間復雜的拓撲關系,也不能建立一個空間幾何網路。ArcSDE解決了這些問題,並利用空間索引機制來提高查詢速度,利用長事務和版本機制來實現多用戶同時操縱同一類型數據,利用特殊的表結構來實現空間數據和屬性數據的無縫集成等(熊麗華等,2004)。
ArcSDE是ESRI公司開發的一個中間件產品,所謂中間件是一個軟體,它允許應用元素通過網路連接進行互操作,屏蔽其下的通訊協議、系統結構、操作系統、資料庫和其他應用服務。中間件位於客戶機/伺服器的操作系統之上,管理計算資源和網路通訊,並營造出一個相對穩定的高層應用環境,使開發人員可以集中精力於系統的上層開發,而不用過多考慮系統分布式環境下的移植性和通訊能力。因此,中間件能無縫地連入應用開發環境中,應用程序可以很容易地定位和共享中間件提供的應用邏輯和數據,易於系統集成。在分布式的網路環境下,客戶端的應用程序如果要訪問網路上某個伺服器的信息,而伺服器可能運行在不同於客戶端的操作系統和資料庫系統中。此時,客戶機的應用程序中負責尋找數據的部分只需要訪問一個數據訪問中間件,由該中間件完成網路中數據或服務的查找,然後將查找的信息返回給客戶端(萬定生等,2003)。因此,本系統實現空間資料庫存儲的基本思想就是利用ArcSDE實現各類空間數據的存儲。
目前,空間數據存儲技術已比較成熟,出現了許多類似ArcSDE功能的中間件產品,這些軟體基本上都能實現空間數據的資料庫存儲與管理,但對於海量空間數據的存儲,各種軟體性能差別較大。隨著數據量的增長,計算機在分析處理上會產生很多問題,比如數據不可能一次完全被讀入計算機的內存中進行處理。單純依賴於硬體技術,並不能滿足持續增長的數據的處理要求。因此需要在軟體上找到處理海量數據的策略,並最終通過軟硬體的結合完成對海量數據的處理。在海量數據存儲問題上,許多專家從不同側面進行過研究,Lindstrom在地形簡化中使用了外存模型(Out-of-core)技術;鍾正採用了基於數據分塊、動態調用的策略;汪國平等人在研究使用高速網路進行三維海量地形數據的實時交互瀏覽中,採用了分塊、多解析度模板建立模型等方法。這些技術、方法已經在各自系統上進行了研究和實現。本系統採用的ArcSDE軟體基本上也是採用分塊模型的方法,具體存儲和操作不需要用戶過多了解,已經由ArcSDE軟體實現。因此,對海量數據的存儲管理,更需要從數據的組織方式等方面進行設計。塔里木河流域生態環境動態監測系統採集了大量的遙感影像、正射影像等柵格結構的數據,這些數據具有很大的數據量,為適應流域空間基礎設施的管理需要,採取一種新的方式來管理、分發這些海量數據以適應各部門的快速瀏覽和管理需要。
(二)影像金字塔結構
影像資料庫的組織是影像資料庫效率的關鍵,為了獲得高效率的存取速度,在數據的組織上使用了金字塔數據結構和網格分塊數據結構。該技術主導思想如下:
(1)將資料庫中使用到的紋理處理成為大小一致的紋理塊;
(2)為每塊紋理生成5個細節等級的紋理,分別為0、1、2、3、4,其中1級紋理通過0級紋理1/4壓縮得到,2級紋理通過1級紋理1/4壓縮得到,…,以此類推;
(3)在顯示每個塊數據之前,根據顯示比例的大小,並以此決定該使用那一級的紋理;
(4)在內存中建立紋理緩沖池,使用LRU演算法進行紋理塊的調度,確保使用頻率高的紋理調度次數盡可能少。
(三)影像數據壓縮
影像數據壓縮有無損壓縮和有損壓縮兩個方法,具體採取哪種壓縮方法需根據具體情況確定。對於像元值很重要的數據,如分類數據、分析數據等採用無損壓縮(即LZ77演算法),否則採用有損壓縮(即JPEG演算法)。通過對影像數據的壓縮,一方面可以節約存儲空間,另一方面可以加快影像的讀取和顯示速度。影像數據的壓縮一般與構建金字塔同時進行,在構建影像金字塔過程中自動完成數據的壓縮。
5. 銀行海量交易數據是怎麼存儲的
「合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。」分析和決策這才是銀行引入「大數據」處理的關鍵因素。僅僅對於「海量流水數據提供給客戶查詢」而言,只是滿足了客戶的某個功能性需求而已。
一般來說,銀行的數據都是結構化的、持久性存儲的(非結構化的數據一般指電子影像,如客戶辦理業務的回單掃描圖片等),以資料庫以及文件方式存儲為主。按照交易數據性質,我們可以分為「原始流水數據」和「加工後數據」兩種。
6. 物聯網對海量信息存儲的需求促使了哪些技術的發展
物聯網對海量儲存技術促進的技術包括:快速儲存技術,網路存儲技術,雲存儲技術,大數據存儲技術。
網路存儲技術:直連式存儲(DirectAttachedStorage,DAS)、網路存儲設備(NetworkAttachedStorage,NAS)和存儲網路(StorageAreaNetwork,SAN)。
雲存儲技術是側重企業搭建的雲盤服務,
大數據存儲技術是側重於框架結構的不同。第一種是採用MPP架構的新型資料庫集群,重點面向行業大數據,採用Shared Nothing架構,第二種是基於Hadoop的技術擴展和封裝,圍繞Hadoop衍生出相關的大數據技術。第三種是大數據一體機,這是一種專為大數據的分析處理而設計的軟、硬體結合的產品
7. 大數據存儲技術都有哪些
1. 數據採集:在大數據的生命周期中,數據採集是第一個環節。按照MapRece應用系統的分類,大數據採集主要來自四個來源:管理信息系統、web信息系統、物理信息系統和科學實驗系統。
2. 數據訪問:大數據的存儲和刪除採用不同的技術路線,大致可分為三類。第一類主要面向大規模結構化數據。第二類主要面向半結構化和非結構化數據。第三類是面對結構化和非結構化的混合大數據,
3。基礎設施:雲存儲、分布式文件存儲等。數據處理:對於收集到的不同數據集,可能會有不同的結構和模式,如文件、XML樹、關系表等,表現出數據的異構性。對於多個異構數據集,需要進行進一步的集成或集成處理。在對不同數據集的數據進行收集、排序、清理和轉換後,生成一個新的數據集,為後續的查詢和分析處理提供統一的數據視圖。
5. 統計分析:假設檢驗、顯著性檢驗、差異分析、相關分析、t檢驗、方差分析、卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測、殘差分析,嶺回歸、logistic回歸、曲線估計、因子分析、聚類分析、主成分分析等方法介紹了聚類分析、因子分析、快速聚類與聚類、判別分析、對應分析等方法,多元對應分析(最優尺度分析)、bootstrap技術等。
6. 數據挖掘:目前需要改進現有的數據挖掘和機器學習技術;開發數據網路挖掘、特殊群挖掘、圖挖掘等新的數據挖掘技術;突破基於對象的數據連接、相似性連接等大數據融合技術;突破面向領域的大數據挖掘技術如用戶興趣分析、網路行為分析、情感語義分析等挖掘技術。
7. 模型預測:預測模型、機器學習、建模與模擬。
8. 結果:雲計算、標簽雲、關系圖等。
關於大數據存儲技術都有哪些,青藤小編就和您分享到這里了。如果您對大數據工程有濃厚的興趣,希望這篇文章可以為您提供幫助。如果您還想了解更多關於數據分析師、大數據工程師的技巧及素材等內容,可以點擊本站的其他文章進行學習。
8. 我想問一下大數據的安全存儲採用什麼技術
基於雲計算架構的大數據,數據的存儲和操作都是以服務的形式提供。目前,大數據的安全存儲採用虛擬化海量存儲技術來存儲數據資源,涉及數據傳輸、隔離、恢復等問題。解決大數據的安全存儲,一是數據加密。在大數據安全服務的設計中,大數據可以按照數據安全存儲的需求,被存儲在數據集的任何存儲空間,通過SSL(SecureSocketsLayer,安全套接層協議層)加密,實現數據集的節點和應用程序之間移動保護大數據。在大數據的傳輸服務過程中,加密為數據流的上傳與下載提供有效的保護。應用隱私保護和外包數據計算,屏蔽網路攻擊。目前,PGP和TrueCrypt等程序都提供了強大的加密功能。二是分離密鑰和加密數據。使用加密把數據使用與數據保管分離,把密鑰與要保護的數據隔離開。同時,定義產生、存儲、備份、恢復等密鑰管理生命周期。三是使用過濾器。通過過濾器的監控,一旦發現數據離開了用戶的網路,就自動阻止數據的再次傳輸。四是數據備份。通過系統容災、敏感信息集中管控和數據管理等產品,實現端對端的數據保護,確保大數據損壞情況下有備無患和安全管控。
更多關於大數據的安全存儲採用什麼技術,進入:https://m.abcgonglue.com/ask/d6a03e1615838691.html?zd查看更多內容
9. 大數據爆發性增長 存儲技術面臨難題
大數據爆發性增長 存儲技術面臨難題
隨著大數據應用的爆發性增長,大數據已經衍生出了自己獨特的架構,而且也直接推動了存儲、網路以及計算技術的發展。畢竟處理大數據這種特殊的需求是一個新的挑戰。硬體的發展最終還是由軟體需求推動的。大數據本身意味著非常多需要使用標准存儲技術來處理的數據。大數據可能由TB級(或者甚至PB級)信息組成,既包括結構化數據(資料庫、日誌、SQL等)以及非結構化數據(社交媒體帖子、感測器、多媒體數據)。此外,大部分這些數據缺乏索引或者其他組織結構,可能由很多不同文件類型組成。從目前技術發展的情況來看,大數據存儲技術的發展正面臨著以下幾個難題:
1、容量問題
這里所說的「大容量」通常可達到PB級的數據規模,因此,海量數據存儲系統也一定要有相應等級的擴展能力。與此同時,存儲系統的擴展一定要簡便,可以通過增加模塊或磁碟櫃來增加容量,甚至不需要停機。
「大數據」應用除了數據規模巨大之外,還意味著擁有龐大的文件數量。因此如何管理文件系統層累積的元數據是一個難題,處理不當的話會影響到系統的擴展能力和性能,而傳統的NAS系統就存在這一瓶頸。所幸的是,基於對象的存儲架構就不存在這個問題,它可以在一個系統中管理十億級別的文件數量,而且還不會像傳統存儲一樣遭遇元數據管理的困擾。基於對象的存儲系統還具有廣域擴展能力,可以在多個不同的地點部署並組成一個跨區域的大型存儲基礎架構。
2、延遲問題
「大數據」應用還存在實時性的問題。有很多「大數據」應用環境需要較高的IOPS性能,比如HPC高性能計算。此外,伺服器虛擬化的普及也導致了對高IOPS的需求,正如它改變了傳統IT環境一樣。為了迎接這些挑戰,各種模式的固態存儲設備應運而生,小到簡單的在伺服器內部做高速緩存,大到全固態介質的可擴展存儲系統等等都在蓬勃發展。
3、並發訪問
一旦企業認識到大數據分析應用的潛在價值,他們就會將更多的數據集納入系統進行比較,同時讓更多的人分享並使用這些數據。為了創造更多的商業價值,企業往往會綜合分析那些來自不同平台下的多種數據對象。包括全局文件系統在內的存儲基礎設施就能夠幫助用戶解決數據訪問的問題,全局文件系統允許多個主機上的多個用戶並發訪問文件數據,而這些數據則可能存儲在多個地點的多種不同類型的存儲設備上。
4、安全問題
某些特殊行業的應用,比如金融數據、醫療信息以及政府情報等都有自己的安全標准和保密性需求。雖然對於IT管理者來說這些並沒有什麼不同,而且都是必須遵從的,但是,大數據分析往往需要多類數據相互參考,而在過去並不會有這種數據混合訪問的情況,因此大數據應用也催生出一些新的、需要考慮的安全性問題。
5、成本問題
成本問題「大」,也可能意味著代價不菲。而對於那些正在使用大數據環境的企業來說,成本控制是關鍵的問題。想控製成本,就意味著我們要讓每一台設備都實現更高的「效率」,同時還要減少那些昂貴的部件。
對成本控制影響最大的因素是那些商業化的硬體設備。因此,很多初次進入這一領域的用戶以及那些應用規模最大的用戶都會定製他們自己的「硬體平台」而不是用現成的商業產品,這一舉措可以用來平衡他們在業務擴展過程中的成本控制戰略。為了適應這一需求,現在越來越多的存儲產品都提供純軟體的形式,可以直接安裝在用戶已有的、通用的或者現成的硬體設備上。此外,很多存儲軟體公司還在銷售以軟體產品為核心的軟硬一體化裝置,或者與硬體廠商結盟,推出合作型產品。
6、數據的積累
許多大數據應用都會涉及到法規遵從問題,這些法規通常要求數據要保存幾年或者幾十年。比如醫療信息通常是為了保證患者的生命安全,而財務信息通常要保存7年。而有些使用大數據存儲的用戶卻希望數據能夠保存更長的時間,因為任何數據都是歷史記錄的一部分,而且數據的分析大都是基於時間段進行的。要實現長期的數據保存,就要求存儲廠商開發出能夠持續進行數據一致性檢測的功能以及其他保證長期高可用的特性。同時還要實現數據直接在原位更新的功能需求。
7、數據的靈活性
大數據存儲系統的基礎設施規模通常都很大,因此必須經過仔細設計,才能保證存儲系統的靈活性,使其能夠隨著應用分析軟體一起擴容及擴展。在大數據存儲環境中,已經沒有必要再做數據遷移了,因為數據會同時保存在多個部署站點。一個大型的數據存儲基礎設施一旦開始投入使用,就很難再調整了,因此它必須能夠適應各種不同的應用類型和數據場景。
存儲介質正在改變,雲計算倍受青睞
存儲之於安防的地位,其已經不僅是一個設備而已,而是已經升華到了一個解決方案平台的地步。作為圖像數據和報警事件記錄的載體,存儲的重要性是不言而喻的。
安防監控應用對存儲的需求是什麼?首先,海量存儲的需求。其次,性能的要求。第三,價格的敏感度。第四,集中管理的要求。第五,網路化要求。安防監控技術發展到今天經歷了三個階段,即:模擬化、數字化、網路化。與之相適應,監控數據存儲也經歷了多個階段,即:VCR模擬數據存儲、DVR數字數據存儲,到現在的集中網路存儲,以及發展到雲存儲階段,正是在一步步迎合這種市場需求。在未來,安防監控隨著高清化,網路化,智能化的不斷發展,將對現有存儲方案帶來不斷挑戰,包括容量、帶寬的擴展問題和管理問題。那麼,基於大數據戰略的海量存儲系統--雲存儲就倍受青睞了。
基於大數據戰略的安防存儲優勢明顯
當前社會對於數據的依賴是前所未有的,數據已變成與硬資產和人同等重要的重要資料。如何存好、保護好、使用好這些海量的大數據,是安防行業面臨的重要問題之一。那麼基於大數據戰略的安防存儲其優勢何在?
目前的存儲市場上,原有的視頻監控方案容量、帶寬難以擴展。客戶往往需要采購更多更高端的設備來擴充容量,提高性能,隨之帶來的是成本的急劇增長以及系統復雜性的激增。同時,傳統的存儲模式很難在完全沒有業務停頓的情況下進行升級,擴容會對業務帶來巨大影響。其次,傳統的視頻監控方案難於管理。由於視頻監控系統一般規模較大,分布特徵明顯,大多獨立管理,這樣就把整個系統分割成了多個管理孤島,相互之間通信困難,難以協調工作,以提高整體性能。除此之外,綠色、安全等也是傳統視頻監控方案所面臨的突出問題。
基於大數據戰略的雲存儲技術與生俱來的高擴展、易管理、高安全等特性為傳統存儲面臨的問題帶來了解決的契機。利用雲存儲,用戶可以方便的進行容量、帶寬擴展,而不必停止業務,或改變系統架構。同時,雲存儲還具有高安全、低成本、綠色節能等特點。基於雲存儲的視頻監控解決方案是客戶應對挑戰很好的選擇。王宇說,進入二十一世紀,雲存儲作為一種新的存儲架構,已逐步走入應用階段,雲存儲不僅輕松突破了SAN的性能瓶頸,而且可以實現性能與容量的線性擴展,這對於擁有大量數據的安防監控用戶來說是一個新選擇。
以英特爾推出的Hadoop分布式文件系統(HDFS)為例,其提供了一個高度容錯性和高吞吐量的海量數據存儲解決方案。目前已經在各種大型在線服務和大型存儲系統中得到廣泛應用,已經成為海量數據存儲的事實標准。
隨著信息系統的快速發展,海量的信息需要可靠存儲的同時,還能被大量的使用者快速地訪問。傳統的存儲方案已經從構架上越來越難以適應近幾年來的信息系統業務的飛速發展,成為了業務發展的瓶頸和障礙。HDFS通過一個高效的分布式演算法,將數據的訪問和存儲分布在大量伺服器之中,在可靠地多備份存儲的同時還能將訪問分布在集群中的各個伺服器之上,是傳統存儲構架的一個顛覆性的發展。最重要的是,其可以滿足以下特性:可自我修復的分布式文件存儲系統,高可擴展性,無需停機動態擴容,高可靠性,數據自動檢測和復制,高吞吐量訪問,消除訪問瓶頸,使用低成本存儲和伺服器構建。
以上是小編為大家分享的關於大數據爆發性增長 存儲技術面臨難題的相關內容,更多信息可以關注環球青藤分享更多干貨
10. 自動駕駛下的海量數據,業界如何安全高效存儲
近幾年來,各行業紛紛跨界加入造車行列,不說傳了多年要造車的國外手機巨頭、出資純電動汽車的科技互聯網大廠,國內的科技企業也在躍躍欲試,比如阿里巴巴、華為、網路、小米和滴滴出行。
除了這些高科技企業,還有小馬智行、文遠知行、AutoX、贏徹科技和主線科技等新興的自動駕駛初創企業;超星未來、奧特貝睿、宏景智駕等專注於私家車高階自動駕駛研發的新型一級供應商;以及純電動車起家的蔚來,小鵬,理想等造車新勢力,都紛紛加入汽車產業鏈,推動了汽車電動化和智能化的進程。
西部數據資深產品市場經理額日特
也正是這些新玩家的加入,使得傳統汽車產業鏈受到了前所未有的壓力,同時也推動了傳統汽車廠商加速新技術和新應用的落地。在西部數據資深產品市場經理額日特看來,隨著汽車智能網聯的不斷推進,汽車的電子電氣架構(E/E)也隨之變化,從最初的分布式架構向域融合和中央控制單元過渡。
輪子上的智能手機,對存儲架構提出更多要求
如今,不少人業內人士都認可汽車在向“輪子上的智能手機”演變,這個轉變,讓廠商開始將越來越多的攝像頭、雷達、激光雷達等感測器、電動機,甚至乙太網、人工智慧等技術都引入汽車。
額日特認為,更多感測器的引入,網聯技術、人工智慧技術的增加,以及汽車電子電氣架構的改變,對汽車內存儲產品的要求發生了很大的變化。
“在汽車存儲領域,單車存儲的 數量將會顯著降低,容量則會顯著提升 。”額日特在不久前廣州舉辦的Auto Tech 2021上演講時指出。
Counterpoint的報告也印證了這一點,該分析機構預計,未來十年內,汽車單車的存儲容量將會達到2TB左右。“目前車內存儲主要用在智能座艙和中控系統,且燃油車以32GB為主,電動汽車一般使用64GB,或128GB,相對於2TB來說,還有一個巨大的提升空間。”額日特表示。
他分析稱,為了應對汽車電動化、智能化、網聯化,及自動化方向的發展,存儲產品也面臨這很多挑戰,主要有四個比較重大的挑戰:
一是數據 的可靠性 和 安全性 ,這是存儲廠商所面臨最基本和最嚴苛的挑戰,也是相關法規及保險責任靠量的關鍵因素。因為對於自動駕駛來說,數據的可靠性和安全性意味著生命的安全。
存儲廠商在數據可靠性和安全性方面也做了不少工作,額日特拿e.MMC、UFS和SSD來說,存儲單元是由兩個部分組成的,一部分是存儲介質Raw NAND,另一部分是控制器和固件。
為了保證更好的TBW(Total Bytes Written),即產品生命周期里能承受的總寫入數據量,存儲廠商一般都會 通過控制器和固件對底層做一個讀寫均衡 。“TBW通俗地講就是耐擦寫,意思是NAND Flash是有壽命的,如果數據手冊里規定了NAND Flash的擦寫次數是3,000次,客戶就需要考量該TBW是否滿足自己的應用需求。”
還有一個是主機鎖定 ,即在汽車主機上焊上一個內存,加了主機鎖的內存放到另外一個主機上是沒有用的,因為它已經與原來的主機做了鎖定,這樣也可以確保數據的安全。
另外,防寫也是一個很重要的功能 ,比如汽車如果出事故了,有的用戶擔心數據會被汽車廠商篡改,“我們存儲廠商在與主機廠商、Tier 1企業一起共同努力,協商一個有效的協同保護機制,確保車輛在發生事故後,在警察沒有查看數據之前,沒有任何一家,包括內存廠商都無法篡改存儲器內的數據,以確保司法監管在調查的時候的公正性和嚴肅性。”額日特表示。
二是復雜的應用場景 ,隨著電子電氣架構向域及中央控制單元轉變,應用的融合對存儲的要求也變得更加復雜,不再是單一的讀或寫。比如導航是一個讀密集型操作,行車記錄儀是一個寫密集型操作。
特別是隨著電子電氣架構的改變,融合中央控制單元的使用,使得內存需要承受更加復雜的操作系統環境。比如高通的8155平台把智能座艙、數字儀表和中控融合到了一起,此時就需要使用Hypervisor,以允許多個操作系統和應用共享同一個硬體。 但實際上,現在的內存結構,只能做到邏輯分區,不能做到物理分區。
“舉一個簡單的例子,我們現在所使用的電腦有C盤、D盤、或者E盤,實際上C、D、E盤只是邏輯分區,底層的內存是沒有做到物理分區的,這些盤存儲的數據都是打散存儲在一塊內存里,不論是哪個盤壞掉,代表的就是整個內存檔都壞了。”額日特指出。
因此,這就會帶來一個問題,比如行車記錄儀是一個需要高擦寫支持的應用,如果把行車記錄儀也融合到智能座艙內的話,做起來很容易。但要是不做物理分區,由於行車記錄儀的高擦寫,可能整個內存很快就會壞掉。
為了適應這個改變,也為了數據的更加安全,“西部數據現在可以提供一種解決方案,那就是在底層做讀寫均衡的隔離,比如 一塊內存裡面,可以分別使用 TLC 和S LC 兩種N AND F lash ,由於SLC可以支持高擦寫,因此,SLC部分就可以作為行車記錄儀的存儲。”額日特表示。
三是海量數據存儲 ,為了適應自動駕駛的需求,越來越多的雷達和攝像頭被部署在汽車上,行車過程中會產生大量的數據。
特別是自動駕駛計程車的企業對數據的存儲容量需求是很大的,現在單車一天生成的數據量在8GB左右,但實際上,現在主流汽車的存儲容量在2GB到4GB之間。
額日特以西部數據與Waymo的合作為例,西部數據在Waymo自動駕駛計程車上安裝了10塊2TB的工業級SSD,也就是說Waymo的單車存儲容量要求是20TB。其實這也是大部分自動駕駛汽車的存儲需求。
四是高性能, 雷達和攝像頭會在行車過程中產生大量的數據,為了防止數據丟失,必然需要高性能、大帶寬存儲的支持。
其實存儲產品也在通過不停地創新來獲得更高的傳輸速率。在嵌入式存儲器方面,目前汽車領域使用的主流存儲產品是e.MMC,比e.MMC更快的是UFS產品,目前汽車領域主要採用的還是UFS2.1。實際上,消費類電子已經在大規模採用UFS3.0的產品了。額日特預計汽車級UFS3.1的產品,應該會在兩年內面市。
另外,在SSD方面,目前汽車領域的SSD主要還是採用SATA介面,未來帶寬更高、速度更快的NVMe介面的SSD產品也可能會在汽車上得到應用。使用SSD的好處就是容量可以做得更大,比如UFS介面能做到的最大容量可能是512GB,但SSD可以輕松做到4TB、8TB,甚至更大。
滿足汽車需求的解決方案
據額日特介紹,西部數據可以提供從端到雲的完整解決方案,以支持當前和未來的車輛系統要求,它為多樣的應用場景和數據中心,提供了小尺寸嵌入式終端存儲和可移動存儲,用於獲取和分析從車輛收集的大量數據。他特意強調,西部數據的汽車級快閃記憶體產品通過了IATF16949認證,符合AEC-Q100標准。
產品方面,有iNAND汽車級嵌入式存快閃記憶體檔(EFD),支持UFS和e.MMC介面,具有多種容量,採用11.5×13mm的小包裝,可為汽車OEM和一級供應商提供符合其需求的選擇。比如iNAND AT EU312 是一款基於 3D NAND 技術的汽車級UFS(通用快閃記憶體存儲),具有高數據傳輸速度的UFS 2.1介面和額外的UFS 3.0汽車功能,可提供最高256GB的容量,性能是前代基於e.MMC的產品的2.5倍。AT EU312利用第5代SmartSLC 技術,可提供高性能和可靠的寫入。
其e.MMC 嵌入式快閃記憶體檔基於e.MMC 5.1 標准,採用2D或3D NAND技術。具體產品有EM122已經獲得許多汽車設計的認證並投入生產,EM132在汽車市場中容量達到了256GB。
在PCIe SSD方面,有CL SN720和CL SN520等產品,採用了PCIe Gen3 NVMe介面,容量高達2TB,耐久性高達1600 TBW。
與合作夥伴的成功案例
在本次Auto Tech 2021展會上,西部數據不僅展示了自己家的汽車存儲解決方案,也帶來了合作夥伴的一些成功案例。
有為信息展示的“主動安全智能防控車載視頻終端K5-P”解決方案。
在車載監控方面,其合作夥伴有為信息展示了“主動安全只能防控車載視頻終端K5-P”解決方案,該解決方案支持ADAS、DSM只能監控,採用了記錄儀、視頻功能、主動安全功能一體化設計。同時支持硬碟(2.5” HDD)+ SD卡(西部數據WD Purple micro SD存儲卡),雙重存儲保證數據安全;且具有硬碟防震保護機制;此外,有為信息的專利的存儲介質保護裝置,可防止任意拆卸硬碟及插拔存儲卡。加上其獨特流媒體文件系統存儲方式,保證了數據安全不被篡改。
車載信息娛樂系統方面,其合作夥伴掌銳展示了“前裝車規模組”解決方案------CS199 MT8666AV模組,該模組基於聯發科 MT8666AV晶元封裝的前裝車規級帶4G通信模組,具有功能豐富,集成度高、尺寸小、低功耗、性能優、品質穩定的特點,可滿足汽車智能化、連網化的前裝需求,幫助客戶縮短項目開發周期,減少研發投入並降低品控風險。存儲方面,採用的是西部數據iNAND AT EM132產品,是汽車市場首個基於3D TLC NAND e.MMC介面產品,採用了標准BGA封裝,容量涵蓋了從32GB到256GB,具有快速啟動、自動刷新、增強型運行健康狀態監測,支持固件在線升級和100%預燒錄,有AEC-Q100溫度2級(-40°C 至105°C)和3級(-40°C至85°C)兩種選擇。
銥斯電子展示的智能駕駛輔助系統解決方案。
此外,西部數據現場還展示了採用iNAND AT EM122的智能駕艙、智能駕駛、以及車聯網等豐富的解決方案。
西部數據公司中國區嵌入式產品銷售部門銷售總監文芳女士
西部數據公司中國區嵌入式產品銷售部門銷售總監文芳表示:“車聯網、自動駕駛等新技術的商業化落地,對汽車新四化的發展起到了巨大的推動作用,同時也對車載存儲解決方案的安全性、可靠性、大容量、高性能以及復雜的場景應用提出了更嚴苛的要求。西部數據作為數據基礎架構的領導者,提供覆蓋8GB-18TB容量,包括e.MMC/UFS/micro SD/SSD/HDD等不同規格的車規級及企業級存儲產品,支持端-邊-雲新型數據架構在汽車領域的應用,滿足當前和未來單車智能及車路協同的多樣化需求。”
未來,西部數據將不斷突破創新,以卓越的產品及解決方案賦能汽車領域的改革與發展,為人們帶來更安全、優質的駕駛體驗。
結語
近年來,汽車行業正在經歷前所未有的變革,自動駕駛不斷發展,高清3D地圖、高級輔助駕駛系統(ADAS)、自主計算機、AI、大數據、增強型信息娛樂系統、無線更新、以及V2X技術等等逐步在汽車上得到普及,而這些功能都需要板載數據存儲,未來汽車的存儲需求將會越來越大,如何滿足汽車市場的特殊需求,是存儲企業必須要考慮的,抓住汽車市場,就意味著抓住了未來。
轉載自電子發燒友 @2019