當前位置:首頁 » 存儲配置 » 冷熱分層存儲

冷熱分層存儲

發布時間: 2022-12-25 08:54:47

Ⅰ 冷熱數據問什麼存儲系統要做到冷熱數據分離

故名思議,冷數據就是沒人訪問貨很少訪問的數據,熱數據就是大家都喜歡看的數據。
數據存放的介質有SSD、SAS、NLSAS、磁帶等,價格和性能成正比,如果把冷數據和熱數據都放在性能好的介質中,客戶的投入就很高,性價比不好。所以見熱數據存放在高速介質中,冷數據存放在廉價介質中做分離。
集中存儲中的分層就是根據熱度表,對數據進行遷移實現分層存儲。

Ⅱ 亞馬遜雲科技的雲存儲,最應該知道的有這三點

傳統存儲在以各種方式對接公有雲生態,公有雲的雲上服務類型也在不斷完善,作為企業信息化負責人要做的是更多地了解公有雲,然後,考慮如何充分利用公有雲的優勢。

本文通過介紹亞馬遜雲 科技 存儲服務的三個關鍵點,帶您認識雲存儲的現狀。

正文:

乘著互聯網產業的春風,雲存儲在過去近二十年走過了可遇不可求的發展歷程。也讓從90年代開始,就一直坐著冷板凳,負責數據歸檔的對象存儲,一躍成為整個互聯網數據的基石。

如今,絕大部分互聯網上可訪問的數據都靠對象存儲來存,偶爾曝出的數據泄露事件也大多都跟對象存儲有關,當然,問題不在於對象存儲本身。

從2006年,亞馬遜雲 科技 的對象存儲服務Amazon S3發布,到現在,算起來也有十六年的時間了,這也是亞馬遜雲 科技 推出的第一款雲服務。

從市場表現來看,Amazon S3是非常成功的,前兩年有人推測說,亞馬遜雲 科技 在存儲方面的營收規模非常大,甚至被稱作是全球最大的存儲公司,Amazon S3無疑是功勞最大的一個。

有人說,許多亞馬遜雲 科技 用戶使用的第一個產品就是Amazon S3對象存儲,在所有亞馬遜雲 科技 的用戶案例,在所有技術文檔里,Amazon S3的出鏡率都非常高。

雲上原生存儲Amazon S3的主線任務:不斷降低成本

如果亞馬遜雲 科技 的用戶沒用過Amazon S3,就好比去包子鋪吃飯沒點包子,光顧燒烤店沒吃烤串一樣,令人費解。

Amazon S3的易用性高、可用性高,開發者很喜歡,Amazon S3幾乎不丟數據的可靠性,穩定性也很高,運維管理人員很喜歡,Amazon S3在互聯網應用場景被普遍應用。

如今,Amazon S3上存著超過100萬億個對象,每秒需要處理上千百萬次請求。

Amazon S3一開始解決了可靠性和可用性以及安全方面的基本問題,性能也一直在提升,多年看下來,最大的工作重點就是不斷降低成本。

亞馬遜雲 科技 大中華區產品部總經理 陳曉建介紹稱,同樣存儲一份數據,如果2006年需要100塊錢,而在2022年就只需要大概15塊錢,16年間,Amazon S3的存儲成本降低了大約7倍。

2021年12月,亞馬遜雲 科技 宣布在全球九大區域,將Amazon S3 Standard In Frequent Access和Amazon S3 One Zone In Frequent Access的價格降低了31%。

Amazon S3存儲分了八個層級。

對於需要經常訪問的數據,首選標准版的Amazon S3,它具有毫秒級的訪問表現,而不太經常訪問的數據就選Amazon S3 Standard-IA上,相較於前者能節省大概40%的費用。

而對於那些很少訪問的數據,則可以選擇放在Amazon S3 Glacier DeepArcihve上,它的成本非常低,大約1美刀1個TB,但代價是,想把數據拿回來就得多等等,大概需要12到48個小時。

有人覺得這等的時間也太長了,於是,亞馬遜雲 科技 又推出了Amazon S3 Glacier Flexible Retrieval,只需要等上幾分鍾到幾小時。

就沒有一種,既可以便宜,訪問性能又高的存儲嗎?還真有。

這就是Amazon S3 Glacier Instant Retrieval,它是最新的一個存儲層級,拿回數據的速度是毫秒級的,成本與Amazon S3 Glacier相當,適合每季度才訪問一次、又需要毫秒級取回的海量數據。

另外,Amazon S3 One Zone-IA的成本也很低,顧名思義,數據只存在單個可用區上,而其他S3存儲的數據都在多個可用區上存著好幾分,相比之下,理論上丟數據的風險高了些。

最後,出於合規的要求,用戶有些數據不能上雲,亞馬遜雲 科技 可以提供Amazon Outposts,把雲的硬體放到了用戶的數據中心裡。使用Amazon S3 on Outposts,就像在雲上使用S3一樣。

總的來說,Amazon S3的存儲層級還是挺多的,但問題是,這給選型和管理也帶來了負擔。

為此,亞馬遜雲 科技 推出了Amazon S3 Intelligent-Tiering(智能分層),它會根據對象被訪問的次數在多個存儲層級間進行自動化遷移。

如果不能確定要選什麼或者存儲需求會變,那就選它,它不僅能解除選擇困難症,還能避免用戶自行管理數據分層的麻煩。

一家在東南亞和北美市場非常有影響力的互聯網公司,在亞馬遜雲 科技 上存放了大約幾十PB的數據,原本主要使用的是Amazon S3 Standard—IA,在使用Amazon S3智能分層後,沒有進行任何額外操作,就將存儲成本降低了62%。

亞馬遜雲 科技 最早在2018年就推出了Amazon S3智能分層功能,如今,Amazon S3智能分層已經涵蓋了Amazon S3家族的幾乎所有存儲類別,最多可節省68%的成本。

不僅如此,如今數據分層還拓展到文件存儲Amazon EFS,Amazon EFS提供四種文件存儲等級,數據分層能節省高達72%的存儲成本。

打通雲應用與傳統應用的隔閡:靠多種文件存儲

如果說,對象存儲是雲存儲的標配的話,那文件存儲就是雲存儲連接本地存儲的橋梁。

如今常見的應用分為兩類。

一類是雲原生的現代化應用,也就是在雲上開發的、充分利用雲架構優勢的應用,比如電商、 游戲 、社交媒體等平台。對應需要的存儲,大部分是對象存儲Amazon S3來滿足,少部分需要文件存儲Amazon EFS。

另一類是傳統企業應用,它誕生在公有雲之前,常見的有高性能計算、EDA、視頻渲染等場景,通常由本地的文件存儲系統,比如NAS來支撐的,為提升安全性和可靠性,通常都帶有快照、鏡像、遠程復制等功能特性。

這類工作負載並沒有根據雲架構的特點來設計,如果強行上雲,不僅需要調整應用本身,而且還可能出現兼容性的問題,為了避免此類問題,亞馬遜雲 科技 推出了FSx文件存儲家族。

從2018年開始,陸續推出了面向Windows環境的Amazon FSx for Windows,面向高性能計算場景的Amazon FSx for Lustre,面向大數據分析場景推出了Amazon FSx for OpenZFS。

金風慧能採用了亞馬遜雲 科技 構建HPC高性能計算系統,其中使用了Amazon FSx for Lustre共享存儲系統,不僅使氣象預測系統性能提升了10%,氣象計算時間縮短了1/3,還將成本降低了70%,運維復雜度也大大降低。

此外,還與知名存儲廠商NetApp合作推出了Amazon FSx for NetApp ONTAP,把NetApp的經典NAS文件存儲系統NetApp ONTAP放到了公有雲上。

NetApp在2015年就提出了Data Fabric的概念,大意就是想要實現數據在雲上和雲下的自由流動,是比較早積極擁抱混合雲的存儲廠商之一。

與一些存儲廠商的雲上託管服務不同,Amazon FSx for NetApp ONTAP沒有刪減任何功能,它是雲上唯一完整且全託管的NetApp ONTAP文件存儲系統,能夠無縫地跟企業本地的ONTAP系統對接,所以,用戶的IT系統不需要做任何改動,就能使用雲上服務。

2019年,NetApp與聯想成立合資公司——聯想凌拓,聯想凌拓在中國區提供相關服務,聯想凌拓產品管理與營銷高級總監林佑聲表示,從發布到現在,Amazon FSx for NetApp ONTAP得到了非常多客戶的認可,包括金融、醫療、石油以及高 科技 行業客戶。

嘉里物流原本是本地存儲NetApp ONTAP的用戶,隨著業務全球化發展,在數據擴容以及數據共享方面碰到的問題越來越多,通過使用亞馬遜雲 科技 提供的Amazon FSx for NetApp ONTAP,將數據從本地遷到雲上,解決了這些問題。

上雲之後,不僅可以使用原來NetApp ONTAP自帶的快照和備份等功能,同時,還可以使用亞馬遜雲 科技 遍布全球的數據中心,實現跨區域的災備。

補足數據保護方面的短板:Amazon Backup

一直以來,雲存儲被詬病的點還在於缺少數據災備功能,在如何維持業務連續性方面有一些爭議,而亞馬遜雲 科技 正在試著消除這一顧慮,這就是Amazon Backup。

由於缺少與業務價值的強關聯性,數據保護經常容易被忽視,同時,由於數據保護系統本身很復雜,合規的要求還特別多,實踐起來也特別麻煩,所以,數據保護的實踐相對落後。

可能也是基於這樣的考慮,亞馬遜雲 科技 的數據保護服務Amazon Backup才特別喜歡強調「一站式」「操作簡單」的特點,讓用戶知道,數據保護也沒有那麼麻煩。

於是我們看到,Amazon Backup能覆蓋旗下的幾乎所有存儲產品,包括塊存儲(Amazon EBS)、對象存儲、文件存儲、資料庫,以及計算和存儲網關等相關產品。

Amazon Backup的操作比較簡單,通過圖形的界面即可完成大部分操作,用戶還可以通過預設的策略進行自動化的備份,降低手動備份帶來的問題。

安全合規的問題讓許多用戶頭疼,Amazon Backup深度集成了亞馬遜雲 科技 自帶的KMS數據加密服務,整個備份操作許可權、數據訪問許可權都可以用IAM進行細顆粒度監控,滿足個人信息安全規范、信息安全等級保護等方面的合規要求。

Amazon Backup避免讓數據保護帶來太多的成本負擔,因此也用上了智能分層技術,用戶通過冷熱分層策略可以有效降低約75%的成本。

澳大利亞石油天然氣的供應商Santos要對Amazon EBS塊存儲做備份,原本都是用手動備份的方案,但隨著業務量的發展,備份的出錯率越來越高,成功率越來越低。

而在用了Amazon Backup後,平均備份任務用時和運營成本均有大幅降低,備份成功率到了100%,而且還完全做到企業數據合規。

結束語

確實如陳曉建所言,亞馬遜雲 科技 存儲服務已經成為IT行業的「水」和「電」,讓各行各業的業務都能從存儲服務中獲得價值。

亞馬遜雲 科技 的存儲服務類型和存儲的相關實踐都非常有代表性,而且,很多做法已經成了上雲的參考實踐,企業用戶應該多少了解亞馬遜雲 科技 的雲存儲,特別是有上雲打算的企業。

當然,上雲帶來的便捷和靈活,穩定性和安全性,以及對運維的解放都很吸引人。

還有顧慮?據我個人了解,亞馬遜雲 科技 非常在意企業在雲上的成功和成本節省,不僅會幫企業不斷優化。除此之外,市場上有一些專門的服務,幫助企業做規劃實施,讓你充分利用雲的優勢。

Ⅲ 紫晶存儲的核心技術優勢都有哪些

紫晶存儲是國內具有較強競爭水平的光存儲科技企業,面向大數據時代冷熱數據分層存儲背景下的光磁電混合存儲的應用需求,以及政府、軍工等領域對自主可控和數據存儲安全提升的需求,開展藍光數據存儲系統核心技術的研發、設計、開發,提供基於藍光數據存儲系統核心技術的光存儲介質、光存儲設備和解決方案的生產、銷售和服務。藍光數據存儲系統是一套融合底層光存儲介質、硬體設備和軟體,實現數據自動寫入、存儲和自動讀取的安全可靠、長壽命、綠色節能、低成本存儲系統。

Ⅳ 分層存儲與虛擬化技術的分層存儲

分層存儲其實已經不是一個新鮮的概念,而是已經在計算機存儲領域應用多年。其與計算機的發明與發展相伴相生。在馮-諾依曼提出計算機的模型「存儲程序」時就已經包含了分層存儲的概念。「存儲程序」原理,是將根據特定問題編寫的程序存放在計算機存儲器中,然後按存儲器中的存儲程序的首地址執行程序的第一條指令,以後就按照該程序的規定順序執行其他指令,直至程序結束執行。在這里的外存儲器與內存儲器,就是一個分層存儲的最初模型。
分層存儲(Tiered Storage),也稱為層級存儲管理(Hierarchical Storage Management),廣義上講,就是將數據存儲在不同層級的介質中,並在不同的介質之間進行自動或者手動的數據遷移,復制等操作。同時,分層存儲也是信息生命周期管理的一個具體應用和實現。
而實際上,將相同成本及效率的存儲介質放在不同層級之間進行數據遷移復制在實用性及成本上並不是有效的數據存儲方式。因此,在不同的層級之間使用有差別的存儲介質,以期在相同成本下,既滿足性能的需要又滿足容量的需要。這種存儲介質上的差別主要是在存取速度上及容量上。存取速度快的介質通常都是存儲單位成本(每單位存儲容量成本,如1元/GB)高,而且容量相對來講比較低。相應的,存取速度慢的介質通常是為了滿足容量與成本方面的要求,既在相同的成本下可以得到更大的容量。所以,從這方面來說,分層存儲其實是一種在高速小容量層級的介質層與低速大容量層級的介質層之間進行一種自動或者手動數據遷移、復制、管理等操作的一種存儲技術及方案。
一般來說,分層存儲中,我們將存取速度最快的那一層的介質層稱為第0層(Tier 0),依次為第1層,第2層等等。理論上說,層級的劃分可以有很多層,但是在實踐中,最多的層級在5層左右。過多的層級會增加數據及介質管理的難道及可用性。因此在層級的設置上有一個拐點,即層級達到一個特定的層數時,會導致成本的上升,而使得可用性、可靠性都會相應下降。通常層級的設定在2-4層之間。如下圖所示: 在計算機系統中,CPU 的運行速度往往要比內存速度快上好幾百倍甚至更多,為了更多地榨取CPU的計算能力,就需要在訪問數據的速度上進行提升,否則內存的速度將成為整個系統的性能短板。因此在這樣的思想下,CPU慢慢發展出來1級或者2級這樣的存儲緩存。實際也表明,緩存的存在確實對於系統性能的提升起到了巨大的推動作用。
相應的,內存的訪問速度又是硬碟訪問速度的幾百倍甚至更多,也是基於CPU類似的指導思想,我們能不能在存儲之間也進行這樣的分層(或者說緩存)以期提高系統的I/O性能,以滿足應用對系統提出的更多高I/O的需求呢?
從某種意義上說,內存其實也就是充當了CPU與外部存儲之間的另一個級別的緩存。作為用戶來講,我們當然希望所有需要用到的數據都最好是存在最高速的存儲當中。但是這樣近乎是烏托邦式的理想至少在當前來說是不現實的。在技術上的難度不說,成本的壓力就會使得用戶喘不過氣來,再一個就是有沒有必要的問題,因為有的數據根本都不需要一直存於這樣的存儲中。在計算機界中有一個很有名的理論,就是說,加上一個中間層,就可以解決計算機中許多的問題。而這個「中間層」也正是我們所尋求的,實際也證明這樣的中間層確實取得了非常好的效果。
據IDC數據預測,到2012年,信息數據的增長將會達到50%的復合年增長率,這個增長主要源於越來越來多數據內容生成並存儲,經濟全球化使用商業各個部門及與商業夥伴之間需要保持連接,使得更多的數據被生成,復制及保存。法規遵從及管理,還有容災與備份都使得數據的增長持續上升。天下沒有一勞永逸的解決方案,我們需要根據不同的數據存儲需求,設計不同的存儲方案。比如歸檔,我們可以將數據存儲在磁帶上,比如需要頻繁訪問的實時數據我們可以放在內存或者SSD(固態硬碟)設備中,對於容災或者備份,我們可以使用大容量低成本的存儲來應對。正所謂好鋼用在刀刃上,用戶也希望把資金投向更能產生效益的存儲上。
除了需要滿足不同的存儲需求,還有出於對於高性能高吞吐量應用的支持。因為有的應用需要這樣存儲系統。特別是現在風頭正勁的虛擬化技術。為了在一台設備上支持更多的虛擬應用,就需要系統支持更大的吞吐量以及更高的性能。全部採用高速介質在成本上現在依然不是可行的,也不是必須的。因為根據數據局部性原理,往往被頻繁訪問的數據是局部而有限的。為了應對部份這樣的數據而全採用高速存儲實在是過於奢侈。如果我們針對這部份數據另開小灶來解決不是更好?所以分層存儲在這里就可以大展拳腳。我們把高頻率訪問的數據放在高速存儲介質上,而其他的數據放在速度較慢一些的介質上,這實際上就是提高了系統的吞吐量。 從計算機系統角度來說,最上層的存儲層應該是CPU內的各類型寄存器,其次是CPU內的緩存,其次再是系統內存。因為從分層存儲的定義上,此類型存儲器是符合定義規則的。因為這些存儲器速度與容量都有差別,越靠近CPU的存儲器成本越高,速度越快,容量越小,並且在CPU的控制下,數據這些不同類型的存儲器中間進行自動的轉存。比如寄存器通常在16、32、64、128位之間,而緩存則在幾十個位元組及到幾兆位元組之間,內存容量當前通常都在幾百兆位元組以上,伺服器級的內存也上幾十個吉位元組。很有意思的是,這類型的分層也非常符合上圖所示的效益成本曲線圖。層級過多時,對於CPU的硬體設計及不同層次之間的數據一致性的保證都是一個挑戰。所以,現代CPU在寄存器與內存之間的緩存基本在1-3級。而我們通常使用的386平台的CPU(Intel 及 AMD)基本上都只有兩級緩存。這類存儲都有一個共同的特點,就是系統掉電後數據不復存在。我們將此類型的分層存儲稱為易失性存儲分層,或者內部存儲器分層存儲。
而另外一種分類,則是非易失性分層存儲,或者叫外部分層存儲。此類型的存儲介質一般包括固態硬碟(SSD)、機械式硬碟、光碟、快閃記憶體檔(包括外置硬碟)、磁帶庫等等。而此類的存儲介質分層正是我們所要關注的,如沒有特殊的說明情況下,在此文檔中所說的分層存儲都是指外部分層存儲。一般來說,作為第0層的存儲介質通常為 RAM 磁碟(隨機訪問存儲磁碟,其速度與內存同速,但是價格昂貴,使用環境基本上是特殊計算環境)以及 SSD,第1層可能有 FC 15K硬碟或者SAS 15K硬碟,或者相應的10K硬碟。第2層可能有其他類型的硬碟及磁碟庫等。第3層,可能是如磁帶庫以及光碟庫這樣的離線介質。當然這樣的分層不是標准,但是一個實踐中常用的分層策略。
如 D2D2T 這樣的存儲方案,其實就是分層存儲的一個實踐方案。數據從本地的磁碟轉存於於另一個遠程的磁碟(D2D)。這個磁碟的形式可以是一個JBOD,或者一個虛擬存儲設備,然後再通過一定的轉存策略將這個磁碟的數據轉存於磁帶庫或者磁帶(D2T)。愛數備份存儲櫃X系列都支持D2D2T這樣的應用。 由上一節可知道,外部分層存儲只不過是內部分層存儲的一個外延。所以,外部分層存儲考慮的問題與內部分層存儲實際上是大同小異的。
1、 首先是數據一致性的問題。這個問題比較好理解。如果不同的數據在不同的存儲層級之間存在時,數據的改寫必然導致數據的不致的問題。在內部分層存儲時,可以採用通寫策略或者回寫策略。而不同的方法也有各自優缺點,這里就不再贅述。但是外部分層存儲與內部分層存儲有一個最大的不同是,內存儲最終數據需要寫到內存中,而外分層存儲中,則不是必須的。當然也可以設計成這樣的實現方案,但是這樣話,分層存儲的性能優勢則必定會受到影響。數據在不同層級之間的連續性可以由一個虛擬層來保證。這個我們在談到虛擬化時會討論這個問題。
2、 第二個問題就是命中率的問題。如何設計一套演算法或者實現策略來提高數據系統的命中率是分層存儲中是否能起到其相應作用的關鍵。這個與CPU的緩存機制是完全一樣的。不過,CPU的緩存機制已經有一套非常成熟的演算法設計。而外部分層存儲與內部分層存儲有其不同的特性,因此,CPU中的緩存機制不能全部照拿過來用。特別是CPU的緩存機制還主要是硬體設計上面的問題。而外部存儲層可能還與一些邏輯設計相關,比如文件系統,文件等。從這點上說,外部分層存儲的軟體設計上比起CPU緩存的設計可能要更復雜一些。
3、 第三個問題就是在分層介質的選擇上。上面也提過,不同層級之間的介質應該是有差別的,否則就失去了分層的意義。一般來說,高速介質應該是小容量、高成本,隨著層級的往下走,其成本容量曲線應該呈現如下的形式:
即容量越大的單位成本越低,速度越慢,因此應該放到更低的層級中,反之亦然。因此,在存儲介質的配置上如何找到一個合適的點,使得成本與效益最優化則是在分層介質選擇及策略制定上需要考慮的問題。下面的圖中給出了一個實際的可能的配置方案:1、 第四個問題就是數據分層的級別。對於數據的描述有位元組級,塊級(包括扇區及簇),文件級及文件系統級。當然不同的級別有不同的應用場合,並不是哪種級別好於哪個級別。對於文件級的分層,對於歸檔,法規遵從則比較適合。對於文件系統級的則多用於容災及備份系統中。對於塊級則可能用在虛擬化中較為合適。因此需要根據不同的需求制定不同的分層級別。
2、 第五個問題就是數據的遷移策略的設計。可以根據數據的重要性、訪問頻度、大小、年齡來制定遷移策略。但是如同第四點所說明的那樣,不同的策略是有不同的應用場合的,沒有孰優孰劣的問題。好的策略應該是不同最優策略的組合,也就是因「需」制宜地選擇合適的遷移演算法或者方法。根據年齡進行遷移的策略可以用在歸檔及容災備份系統中。根據訪問頻度則可以用於虛擬化存儲系統中等等。類似的方法已經用於計算機軟體設計或者硬體設計當中的很多地方,如LRU(最近最少使用)、ARC(自適應交替緩存)都是可以借鑒的。

熱點內容
java返回this 發布:2025-10-20 08:28:16 瀏覽:600
製作腳本網站 發布:2025-10-20 08:17:34 瀏覽:892
python中的init方法 發布:2025-10-20 08:17:33 瀏覽:585
圖案密碼什麼意思 發布:2025-10-20 08:16:56 瀏覽:769
怎麼清理微信視頻緩存 發布:2025-10-20 08:12:37 瀏覽:689
c語言編譯器怎麼看執行過程 發布:2025-10-20 08:00:32 瀏覽:1016
郵箱如何填寫發信伺服器 發布:2025-10-20 07:45:27 瀏覽:261
shell腳本入門案例 發布:2025-10-20 07:44:45 瀏覽:119
怎麼上傳照片瀏覽上傳 發布:2025-10-20 07:44:03 瀏覽:809
python股票數據獲取 發布:2025-10-20 07:39:44 瀏覽:718