美國災害導致存儲宕機
① 運用哪幾種方法可以解決存儲過程的數據安全問題
在這個信息爆炸的年代,現代人每天不論於公於私, 都面臨必須經手大量數字信息、 而在數據安全問題上會出現各種麻煩;另一方面, 隨著數據量的增加,人們對存儲認識程度也日益加深, 特別是企業對於存儲過程中數據安全問題尤為關注。一個穩定、 安全、可靠的存儲基礎架構對企業來說是必不可少的。 企業的信息系統不可避免地受到來自外界的安全危脅, 包括自然災害、網路、硬體、軟體等方面,也包括人員的操作失誤。 數據存儲的任何失誤都可能給企業帶來巨大的經濟損失。 隨著數據價值不斷提升,以及存儲網路化不斷發展, 數據遭受的安全威脅日益增多,若無存儲安全防範措施, 一旦攻擊者成功滲透到數據存儲系統中, 其負面影響將是無法估計的。這要求企業在特定存儲系統結構下, 從存儲安全性綜合考慮。 而企業在業務運作的過程中最常面臨的存儲安全問題, 主要是由自然災害,網路、硬體,人員的操作失誤這幾方面引起的。 自然災害導致數據存儲安全 首先,這個不是一個人為的行為, 大量的數據存儲在企業的伺服器存儲系統中, 業務在運營中由於停電或是數據傳輸過程中的線路突然短路導致的數 據的丟失情況,對於企業是一個不小的損失,在這種狀態下, 由於自然災害原因導致企業數據的丟失可以說對於一個企業的數據信 息是一個很大的安全威脅,系統的正常運行,資料庫的合理優化, 操作人員的完善的操作程序都確保數據的穩定安全,而突發的停電、 火災以及後備電源的不到位對於中小企業是時常面臨的問題, 同時數據的存儲安全成為面對該情況時必須要解決的問題, 也是企業及時需要應對的措施,保證數據的安全, 但如何面對該情況應對企業數據的存儲安全呢? 網路硬體 其次, 企業數據的硬體環境方面的問題也會導致存儲過程中數據安全, 眾所周知信息化快速發展的今天,硬體的更新換代速度之快, 從而使得企業的傳統的存儲環境已經難以應對如今海量的數據需求, 企業也要升級換代才可以適應現在數據存儲的環境要求。 硬體環境的老化導致傳輸速率的降低, 同時網路的優化也需要良好的硬體環境作為基礎, 在傳輸數據的過程中如果數據量過於龐大, 而企業的硬體環境沒有改善那麼網路的延遲導致系統的崩潰, 從而丟失數據會造成巨大的經濟損失,而對於這些方面, 就需要企業根據業務發展的需要有針對性地升級存儲伺服器的配置, 提高網路的良性環境,保證存儲過程數據安全。 人員的操作失誤 「金無足赤,人無完人」 是對於當今任何企業在數據管理人員方面的一句良言, 每個人在工作的過程中不可避免的犯錯誤或者在操作上失誤, 特別是對於從事資料庫管理工作的人員,數據量之大, 系統運行之繁瑣,都會給工作中帶來不必要的失誤, 從而對於企業的數據上的安全和完整性存在危脅, 同時中小企業的數據管理人員還肩負存儲系統的運維工作, 這就對其數據存儲過程中的安全性提出了更高的要求, 面對著企業存儲過程數據安全問題,應該如何的解決, 採取什麼樣的措施保證數據的安全是擺在每個企業面前的主要問題, 數據是企業運營的核心, 強大的數據的支持保障企業在市場中能夠乘風破浪, 如何解決存儲過程數據安全問題, 下面針對以上的問題給以簡單的建議。 一般而言,解決存儲過程中的數據安全問題, 企業有很多可以採用的方案: 異地備份可以避免發生自然災害時的數據損失;採用RAID( 獨立磁碟冗餘陣列)可以減少磁碟部件的損壞;採用鏡像技術 可以減少存儲設備損壞;快照可以迅速恢復遭破壞的數據, 減少宕機損失。 而這些技術採用可以很好的應對企業面臨的自然災害,網路、硬體, 人員的操作失誤這幾方面引起的數據的安全問題。 異地備份 異地備份是保護數據的最安全的方式,無論發生什麼情況自然災害, 那怕是火災、地震,當其他保護數據的手段都不起作用時, 異地容災的優勢就體現出來了,異地備份問題在於速度和成本, 這要求擁有足夠帶寬的網路連接和優秀的數據復制管理軟體。 通常狀態下主要三方面實現異地備份,一是基於磁碟陣列, 通過軟體的復制模塊,實現磁碟陣列之間的數據復制, 這種方式適用於在復制的兩端具有相同的磁碟陣列。 二是基於主機方式,這種方式與磁碟陣列無關。 三是基於存儲管理平台,它與主機和磁碟陣列均無關。 RAID RAID系統使用許多小容量磁碟驅動器來存儲大量數據, 並且使可靠性和冗餘度得到增強。對計算機來說, 這樣一種陣列就如同由多個磁碟驅動器構成的一個邏輯單元。 所有的RAID系統共同的特點是「熱交換」能力: 用戶可以取出一個存在缺陷的驅動器,並插入一個新的予以更換。 對大多數類型的RAID來說,不必中斷伺服器或系統, 就可以自動重建某個出現故障的磁碟上的數據。 鏡像 這個技術是針對如果故障發生在異地分公司,可以使用鏡像技術, 進行不同卷的鏡像或異地卷的遠程鏡像, 或採用雙機容錯技術自動接管單點故障機, 保證無單點故障和本地設備遇到不可恢復的硬體毀壞時, 仍可以啟動異地與此相同環境和內容的鏡像設備, 以保證服務不間斷。當然,這樣做必然會提升對設備的投資力度。 快照 在數據保護技術中,快照技術(snapshot) 是極為基礎和熱門的技術之一,應用在很多存儲過程中, 比如數據復制和備份都在使用這種技術。 IBM的FlashCopy、IBM NAS的PSM軟體以及VERITAS的FlashSnap軟體 都是快照技術的代表。快照可以迅速恢復遭破壞的數據, 減少宕機損失, 可以針對與資料庫管理人員在操作中的失誤進行數據恢復。 綜述: 對於企業在存儲過程中的數據安全問題,還有很多解決的方案, 存儲安全固然十分重要, 但是存儲安全只是數據中心整個安全解決方案的一個組成部分。 安全是一個內涵很廣泛的話題, 存儲在業務流程中扮演的並非是主角,但確實是關鍵角色, 因為存儲包含了公司絕大部分記錄,如果沒有存儲, 很多業務流程將沒法繼續。因此, 對於面對存儲過程數據安全問題每個企業應該注視起來, 投入更多的精力,數據是一個企業的核心競爭力, 安全強大的數據是企業騰飛的保證,存儲技術的發展, 硬體環境的完善相信會給企業數據安全無疑提供強有力的支持。
② 為什麼當宕機
當計算機系統或伺服器宕機,可能的原因有多種:
硬體故障:
- CPU、內存、硬碟等核心部件損壞:這些硬體是計算機系統運行的基礎,一旦出現故障,可能導致系統無法正常啟動或運行。
- 電源故障:電源供應不穩定或損壞,會直接導致系統斷電,從而造成宕機。
軟體錯誤:
- 操作系統或應用程序中的漏洞和錯誤:這些錯誤可能導致系統崩潰或停止響應,需要定期更新和修補。
系統過載:
- 資源耗盡:當系統資源(如CPU、內存、磁碟空間)達到極限時,系統無法處理新的任務,可能導致宕機。
病毒或惡意軟體:
- 惡意軟體感染:病毒、木馬等惡意軟體可能會破壞系統文件,干擾系統正常運行,甚至導致系統崩潰。
人為錯誤:
- 操作不當:操作員或用戶在執行操作時可能因誤操作導致系統崩潰。
網路問題:
- 網路故障:網路不穩定或中斷可能導致系統無法訪問所需資源或與其他系統通信,進而影響系統正常運行。
自然災害:
- 物理損壞:地震、洪水等自然災害可能對數據中心或伺服器造成物理損壞,導致系統宕機。
維護和升級:
- 系統維護:在進行系統維護或升級時,為了保障數據安全和系統穩定性,系統可能會暫時停止服務。
安全攻擊:
- 黑客攻擊:黑客可能通過攻擊手段破壞或癱瘓系統,導致宕機。
了解這些可能的原因有助於採取相應的預防措施,以減少系統故障和停機時間,提高系統的穩定性和可靠性。
③ 全美冬季風暴已致76人死亡,誰來為死者負責
美國是一個自然災害頻發的國家,其中風災是美國最嚴重的自然災害之一。
全美冬季風暴指76人死亡
當大量得州人陷入停電的麻煩中時,有些家庭雖然幸運地有電可用,但境況同樣不容樂觀。在目前供需不平衡的情況下,得州電價瘋狂飆升,不少家庭都收到了天價電費賬單,面臨著巨大的經濟壓力。
可以說,如果當地政府能夠及時做出相應的措施應該就不會有如今的情況。相比較於美國,我國在重大自然災害面前就顯得處理得很好,無論是98年的大洪水還是如今的新冠肺炎疫情,都體現了我們中國制度的獨特性以及先進性。
④ 哪些原因會導致數據中心斷網
斷網類型一:系統故障
典型事件1:亞馬遜AWS平安夜斷網
故障原因:彈性負載均衡服務故障
2012年12月24日,剛剛過去的聖誕節平安夜,亞馬遜並沒有讓他們的客戶過得太平安。亞馬遜AWS位於美國東部1區的數據中心發生故障,其彈性負載均衡服務(Elastic Load Balancing Service)中斷,導致Netflix和Heroku等網站受到影響。其中,Heroku在之前的AWS美國東部區域服務故障中也受到過影響。不過,有些巧合的事情是Netflix的競爭對手,亞馬遜自己的業務Amazon Prime Instant Video並未因為這個故障而受到影響。
12月24日,亞馬遜AWS中斷服務事件不是第一次,當然也絕非最後一次。
2012年10月22日,亞馬遜位於北維吉尼亞的網路服務AWS也中斷過一次。其原因與上次相似。事故影響了包括Reddit、Pinterest等知名大網站。中斷影響了彈性魔豆服務,其後是彈性魔豆服務的控制台,關系資料庫服務,彈性緩存,彈性計算雲EC2,以及雲搜索。這次事故讓很多人認為,亞馬遜是應該升級其北維尼吉亞數據中心的基礎設施了。
2011年4月22日,亞馬遜雲數據中心伺服器大面積宕機,這一事件被認為是亞馬遜史上最為嚴重的雲計算安全事件。由於亞馬遜在北弗吉尼亞州的雲計算中心宕機,包括回答服務Quora、新聞服務Reddit、Hootsuite和位置跟蹤服務FourSquare在內的一些網站受到了影響。亞馬遜官方報告中聲稱,此次事件是由於其EC2系統設計存在漏洞和設計缺陷,並且在不斷修復這些已知的漏洞和缺陷來提高EC2(亞馬遜ElasticComputeCloud服務)的競爭力。
2010年1月,幾乎6萬8千名的Salesforce.com用戶經歷了至少1個小時的宕機。Salesforce.com由於自身數據中心的"系統性錯誤",包括備份在內的全部服務發生了短暫癱瘓的情況。這也露出了Salesforce.com不願公開的鎖定策略:旗下的PaaS平台、Force.com不能在Salesforce.com之外使用。所以一旦Salesforce.com出現問題,Force.com同樣會出現問題。所以服務發生較長時間中斷,問題將變得很棘手。
斷網誘因二:自然災害
典型事件1:亞馬遜北愛爾蘭柏林數據中心宕機
故障原因:閃電擊中柏林數據中心的變壓器
2011年8月6日,在北愛爾蘭都柏林出現的閃電引起亞馬遜和微軟在歐洲的雲計算網路因為數據中心停電而出現大規模宕機。閃電擊中都柏林數據中心附近的變壓器,導致其爆炸。爆炸引發火災,使所有公用服務機構的工作暫時陷入中斷,導致整個數據中心出現宕機。
這個數據中心是亞馬遜在歐洲唯一的數據存儲地,也就是說,EC2雲計算平台客戶在事故期間沒有其他數據中心可供臨時使用。宕機事件使得採用亞馬遜EC2雲服務平台的多家網站長中斷達兩天時間之久。
典型事件2:卡爾加里數據中心火災事故
故障原因:數據中心發生火災
2012年7月11日卡爾加里數據中心火災事故:加拿大通信服務供應商ShawCommunicationsInc位於卡爾加里阿爾伯塔的數據中心發生了一場火災,造成當地醫院的數百個手術延遲。由於該數據中心提供管理應急服務,此次火災事件影響了支持關鍵公共服務主要的備份系統。此次事件為一系列政府機構敲響了警鍾,必須確保及時的恢復和擁有故障轉移系統,同時結合出台災害管理計劃。
典型事件3:超級颶風桑迪襲擊數據中心
故障原因:風暴和洪水導致數據中心停止運行
2012年10月29日,超級颶風桑迪:紐約和新澤西州的數據中心都受到了此次颶風的影響,所帶來的惡劣影響包括為曼哈頓下城地區的洪水和一些設施的停機,周圍地區數據中心發電機運行失常。颶風桑迪所帶來的影響超出了一般單一的中斷事故,為受災地區數據中心產業帶來了規模空前的災難。事實上,柴油已然成為了數據中心恢復工作的生命線,作為備用電源系統接管了整個地區的負荷,促使特別措施,保持發電機的燃料。隨著眼前的工作重點逐步轉移到災後重建,我們有必要長期就數據中心的選址、工程和災難恢復進行探討,這一話題可能將持續幾個月,甚至幾年。
斷網誘因三:人為因素
典型事件1:Hosting.com服務中斷事故
故障原因:服務供應商執行斷路器操作順序不正確造成的UPS關閉
2012年7月28日Hosting.com停運事件:人為錯誤通常被認為是數據中心停機的主導因素之一。7月Hosting.com中斷事件造成 1100名客戶服務中斷就是一個例子。停機事故的發生是由於該公司位於特拉華州紐瓦克的數據中心正進行UPS系統預防性維護,"服務供應商執行斷路器操作順序不正確造成的UPS關閉是造成數據中心套房內的設施損失的關鍵因素之一。"Hosting.com首席執行官ArtZeile說。"沒有任何重要的電力系統或備用電源系統出現故障,完全是一種人為的錯誤造成的。"
典型事件2:微軟爆發BPOS服務中斷事件
故障原因:微軟在美國、歐洲和亞洲的數據中心的一個沒有確定的設置錯誤造成的
2010年9月,微軟在美國西部幾周時間內出現至少三次託管服務中斷事件向用戶致歉。這是微軟首次爆出重大的雲計算事件。
事故當時,用戶訪問BPOS(Business Proctivity Online Suite)服務的時候,如果使用微軟北美設施訪問服務的客戶可能遇到了問題,這個故障持續了兩個小時。雖然,後來微軟工程師聲稱解決了這一問題,但是沒有解決根本問題,因而又產生了9月3日和9月7日服務再次中斷。
微軟的Clint Patterson說,這次數據突破事件是由於微軟在美國、歐洲和亞洲的數據中心的一個沒有確定的設置錯誤造成的。BPOS軟體中的離線地址簿在"非常特別的情況下"提供給了非授權用戶。這個地址簿包含企業的聯絡人信息。
微軟稱,這個錯誤在發現之後兩個小時就修復了。微軟稱,它擁有跟蹤設施,使它能夠與那些錯誤地下載這些數據的人取得聯系以便清除這些數據。
斷網誘因四:系統故障
典型事件1:GoDaddy網站DNS伺服器中斷
故障原因:系統內一系列路由器的數據表造成的網路中斷
2012年9月10日GoDaddy網站DNS伺服器中斷:域名巨頭GoDaddy是一家最重要的DNS伺服器供應商,其擁有500萬個網站,管理超過5000萬的域名。這就是為什麼九月10日中斷事故會是一個2012年最具破壞性的事件。
一些炒作甚至認為,此次長達6個小時的中斷事件是由於拒絕服務攻擊的結果,但GoDaddy後來表示,這是路由器表的損壞數據造成的。"服務中斷不是由外部影響造成的。"GoDaddy的臨時首席執行官史葛瓦格納說。"這不是黑客攻擊也不是一個拒絕服務攻擊(DDoS)。我們已經確定了服務中斷是由於內部的一系列路由器的數據表造成的網路事件損壞。"
典型事件2:盛大雲存儲斷網
故障原因:數據中心一台物理伺服器磁碟損壞
2012年8月6日晚上8:10,盛大雲在其官方微博上發布一則因雲主機故障致用戶數據丟失事件的公開聲明。聲明說到:8月6日,盛大雲在無錫的數據中心因為一台物理伺服器磁碟發生損壞,導致"個別用戶"數據的丟失。盛大雲已經在盡全力協助用戶恢復數據。
對於因為一台"物理伺服器磁碟發生損壞",導致"個別用戶"數據的丟失的情況,盛大雲技術人員給出自己的解釋:虛擬機的磁碟有兩種生產方式,一種是直接使用宿主機的物理磁碟。這種情況下,如果宿主機的物理磁碟發生故障,雲主機不可避免會造成數據丟失,這也是本次事件產生的原因;另外一種是使用遠程存儲,也就是盛大硬碟產品,這種方式實際上是把用戶的數據存到了遠程的一個集群里,並同時做了多份備份,即使宿主機出故障也不會影響到雲主機的數據。因為物理機的損壞很難避免,為了避免您遇到意外損失,我們建議您在雲主機之外,也做好數據備份。
典型事件3:Google App Engine中斷服務
故障原因:網路延遲
Google App Engine:GAE是用於開發和託管WEB應用程序的平台,數據中心由google管理,中斷時間是10月26日,持續4小時,因為突然變得反應緩慢,而且出錯。受此影響,50%的GAE請求均失敗。
谷歌表示沒有數據丟失,應用程序行為也有備份可以還原。為表歉意,google宣布11月份用戶可以google表示他們正在加強其網路服務以應對網路延遲問題,"我們已經增強了流量路由能力,並調整了配置,這些將會有效防止此類問題再次發生"。
斷網誘因五:系統Bug
典型事件1:Azure全球中斷服務
事故原因:軟體Bug導致閏年時間計算不正確
2012年2月28日,由於"閏年bug"導致微軟Azure在全球范圍內大面積服務中斷,中斷時間超過24小時。雖然微軟表示該軟體BUG是由於閏年時間計算不正確導致,但這一事件激起了許多用戶的強烈反應,許多人要求微軟為此做出更合理詳細的解釋。
典型事件2:Gmail電子郵箱爆發全球性故障
事故原因:數據中心例行性維護時,新程序代碼的副作用
2009年2月24日,谷歌的Gmail電子郵箱爆發全球性故障,服務中斷時間長達4小時。谷歌解釋事故的原因:在位於歐洲的數據中心例行性維護之時,有些新的程序代碼(會試圖把地理相近的數據集中於所有人身上)有些副作用,導致歐洲另一個資料中心過載,於是連鎖效應就擴及到其它數據中心介面,最終釀成全球性的斷線,導致其他數據中心也無法正常工作。
典型事件3:「5.19斷網事件」
事故原因:客戶端軟體Bug,上網終端頻繁發起域名解析請求,引發DNS擁塞
2009年5月19日的21:50,江蘇、安徽、廣西、海南、甘肅、浙江等六省用戶申告訪問網站速度變慢或無法訪問。經過工信部相關單位調查通報稱,此次全國六省網路中斷事故,原因是國內某公司推出的客戶端軟體存在缺陷,在該公司域名授權伺服器工作異常的情況下,導致安裝該軟體的上網終端頻繁發起域名解析請求,引發DNS擁塞,造成大量用戶訪問網站慢或網頁打不開。
其中,DN SPod是國內知名的域名解析服務商之一的N SPod公司,服務數家知名網站的域名解析服務。此次攻擊導致DN SPod公司所屬的6台dns域名解析伺服器癱瘓,直接造成包括暴風影音在內的多家網路服務商的域名解析系統癱瘓,由此引發網路擁塞,造成大量用戶不能正常上網。 工信部指出,此次事件暴露出域名解析服務成為目前網路安全的薄弱環節,指示各單位要加強對域名解析服務的安全保護。
小結
啟用雲服務的公司,很大程度是考慮這種服務可以更加編輯,性價比高。但是,這樣的考慮如果是以降低安全性作為代價,估計很多公司老大不會同意。層出不窮的雲服務斷網事件引起了雲端安全性的擔憂。
目前來看,解決的辦法可以從幾個角度出發,對於企業級客戶來說,務必在採用雲服務的同時定期備份雲端的數據,擁有第二套解決方案按,以備不時之需。而對於雲服務提供商來說,既然各種斷網事件是在所難免的,那就必須思考一個對策,將自己用戶的損失降到最低,對斷網事件的響應效率要提高。
政府部門則具有監督和提醒的職責,雲服務相關的法律法律要相繼出台和不斷完善,並且提醒用戶百分之百可靠的雲計算服務目前還不存在。