資料庫ops
⑴ 五大資料庫理念,讀懂亞馬遜雲科技的資料庫布局
1970 年,關系型資料庫之父 E.F.Codd 發表《用於大型共享資料庫的關系數據模型》論文,正式拉開資料庫技術發展序幕。以 Oracle、DB2、SQL Server 為代表的三大商業資料庫產品獨占鰲頭,隨後涌現出 MySQL、PostgreSQL 等為代表的開源資料庫 ,和以 Amazon RDS 等為代表的雲資料庫,拉開百花齊放的資料庫新序幕。
我們知道,雲計算十年為產業轉型升級提供了 歷史 性契機,但變革仍在進行,隨著雲計算的普及,資料庫市場發生根本性改變,雲廠商打破傳統商業資料庫的堡壘,成為資料庫領域全新力量。其中以連續六年入選 Gartner 領導者象限的亞馬遜雲 科技 為代表,我們一起探討:為什麼亞馬遜雲 科技 能始終保持其創新性?縱觀雲原生時代下,亞馬遜雲 科技 資料庫未來還有哪些更多的可能性?
01 面對四大資料庫發展趨勢,亞馬遜雲 科技 打造五大資料庫理念
後疫情時代下,加速了不少行業的業務在線化和數字化運營,企業對數據價值挖掘的需求越發強烈,亞馬遜雲 科技 大中華區產品部總經理顧凡詳細介紹其中四大趨勢:
一是伴隨互聯網、移動互聯網的發展,電商、視頻、社交、出行等新應用場景的興起,不僅數據量大,對數據實時性要求極高,傳統關系型資料庫無法滿足需求,因此驅動雲原生資料庫的出現。
二是開源資料庫的廣泛應用。
三是應用程序現代化對資料庫提出更高要求,期待資料庫擁有更高的性能、可擴展性、可用性以及降低成本,讓開發人員專注於核心業務的應用開發,不用關注和核心業務無關的代碼。
四是軟體架構歷經 PC、互聯網、移動互聯網,再到如今的萬物互聯時代,其中的迭代和轉型正在驅動資料庫選型的變化。
在此四大趨勢下,伴隨企業的業務量越來越大、越來越復雜,對資料庫的要求越來越高。亞馬遜雲 科技 洞察客戶需求,在打造雲上資料庫產品時提出五大理念:
一是專庫專用,極致性能;二是無伺服器,敏捷創新;第三是全球架構,一鍵部署;第四是平滑遷移,加速上雲;第五是 AI 賦能,深度集成。
02 歷經真實錘煉,五大資料庫理念,持續賦能企業數智轉型
顧凡表示,隨著數據爆炸式增長,微服務架構與 DevOps 愈發流行的今天,一個資料庫打天下的時代已然過去。我們需要在不同的應用場景下,針對不同的數據類型和不同的數據訪問特點,為開發者和企業提供專門構建的工具。
所以亞馬遜雲 科技 提出 第一個核心資料庫理念:專庫專用 。在此理念下,推出針對關系數據、鍵值數據、文檔數據、內存數據、圖數據、時許數據、分類賬數據、寬列等專門構建資料庫的產品家族。
這些資料庫產品均經歷過亞馬遜內部核心業務的真實錘煉,成績斐然:
亞馬遜電商當年是 Oracle 的客戶之一,隨著亞馬遜電商的應用重構和業務體量發展,亞馬遜電商決定將業務遷移到亞馬遜雲 科技 里。100 多個團隊參與這龐大的遷移工作中,將亞馬遜電商采購、目錄管理、訂單執行、廣告、財務系統、錢包、視頻流等關鍵系統全部從 Oracle 遷出來。2019 年,亞馬遜將存儲近 7500 個Oracle 資料庫中的 75 PB 內部數據遷移到多項亞馬遜雲 科技 的資料庫服務中,包括 Amazon DynamoDB、Amazon Aurora、Amazon ElastiCache,於是亞馬遜電商成為亞馬遜雲 科技 在全球的「第一大客戶」。
從 Oracle 切換到亞馬遜雲 科技 後,亞馬遜電商節省了 60% 成本,面向消費者端的應用程序延遲降低 40%,資料庫管理支出減少 70%。
以被譽為「亞馬遜雲 科技 歷史 上用戶數量增速最快的雲服務」Amazon Aurora 為例,其擁有科媲美高端商業資料庫的速度和可用性,還擁有開源資料庫的簡單性與成本效益,Amazon Aurora 讓客戶滿足「魚和熊掌兼得」需求。
據顧凡介紹,Amazon Aurora 可提供 5 倍於標准 MySQL 性能,3 倍於 PostgreSQL 吞吐量。同時提供高可用,可用區(AZ)+1的高可用,Global Databases 可完成跨區域災備。可擴展到 15 個只讀副本,成本只有商業資料庫的 1/10。
醫葯企業九州通為葯廠、供應商,搭建葯廠、供應商、消費者提供供應鏈鏈條。其 B2B 系統的業務特點是讀多寫少,受促銷活動、工作時間等影響,經常會出現波峰波谷落差較大的情況,讀寫比例在 7:2 或者 8:3。九州通採用 Amazon Aurora 後實現讀寫分離和按需擴展,整體資料庫性能提升 5 倍,TCO 降低 50%。實現了跨可用區部署、負載均衡、自動故障轉移、精細監控、按需自動伸縮等。
據權威機構預測,到 2022 年,75% 資料庫將被部署或遷移至雲平台。在這個過程中,亞馬遜雲 科技 是如何通過技術來幫助客戶加速應用上雲的?這離不開除了上述的「專庫專用」外,以下四大理念:
第二個理念是無伺服器、敏捷創新。 亞馬遜雲 科技 大中華區產品部數據類產品高級經理王曉野表示,企業業務總有波峰波谷之時,如何按照企業 80-90% 的業務峰值來規劃資料庫的存儲容量和計算資源的話,將給應用帶來一定的業務連續性的妥協和挑戰。因此大多數企業都是按照峰值留有餘地來選擇資料庫的計算資源,這將造成成本上的浪費。而 Serverless 資料庫服務可完成無差別的繁復工作和自動化擴展。
Amazon DynamoDB 是亞馬遜雲 科技 自研 Serverless 資料庫,其誕生最早可追溯到 2004 年,當時亞馬遜電商作為 Oracle 的客戶,盡管對於關系型資料庫在零售場景的需求並不頻繁,70% 均是鍵值類操作,此時倒逼亞馬遜電商思考:為什麼要把關系型資料庫這么重得使用?我們可以設計一款支持讀寫、可橫向擴展的分布式資料庫嗎?後來的故事大家都知道了,這款資料庫就是 Amazon DynamoDB,並在 2007 年發表論文,掀起業界 NoSQL 分布式資料庫技術創新大潮。
Amazon DynamoDB 可為大規模應用提供支持,支撐亞馬遜自身多個高流量網站和系統,如亞馬遜電商網站、亞馬遜全球 442 個物流中心等。在亞馬遜電商一年一度 Prime Day,光是針對DynamoDB API 的調用達到數萬億次,最高峰值請求達到每秒 8920 萬次。由此可見,DynamoDB 擁有高吞吐、擴展性、一致性、可預測響應延遲、高可用等優勢。
智能可穿戴設備廠商華米 科技 ,在全球 70 多個國家擁有近 1 億用戶。僅 2020 年上半年,其手錶出貨量超 174 萬台,截止到 2021 年 2 月,華米 科技 的可穿戴設備累計記錄步數是 151 萬步,累計記錄的睡眠時間是 128 億個夜晚,記錄心率總時長達 1208 億個小時。如此龐大的數據同時必須保證極高的安全性和低延遲相應,如何保證穩定性是巨大的挑戰。
DynamoDB 幫助華米 科技 在任何規模下都能提供延遲不超過 10 毫秒的一致響應時間。華米 科技 健康 雲的 P0 和 P1 級別故障減少了約 30%,總體服務可用性提升了 0.25%,系統可用性指標達到 99.99%,為華為 科技 全球化擴展提供了有力的支撐。
最新無服務資料庫產品是 Amazon Aurora Serverless V2 提供瞬間擴展能力,真正把擴展能力發揮到極致,在不到一秒的時間內,將幾百個事務擴展到數十萬的級別。同時在擴展時每一次調整的增量都是非常精細化的去管理,如果按照峰值來規劃資料庫資源,可實現大概90%的成本節省。目前 Amazon Aurora Serverless V2 在全球實現預覽。
第三個理念是全球架構、一鍵部署。 在全球化的今天,如何支撐全球客戶的業務擴展連續性、一致性、以最低延遲帶給到終端客戶上,對資料庫提出新的挑戰。
亞馬遜雲 科技 提供 Amazon Aurora 關系型資料庫Global Database、Amazon DynamoDB、Amazon ElastiCache 內存資料庫、Amazon DocumentDB 文檔資料庫都能利用亞馬遜雲 科技 的骨幹網路提供比互聯網更穩定的網路支撐,以一鍵部署的方式,幫助客戶實現幾千公里跨區域資料庫災備,故障恢復大概能在一分鍾之內完成,同時跨區域的數據復制延遲通常小於一秒。
第四個理念是平滑遷移、加速上雲。 目前,450000+ 資料庫通過亞馬遜雲 科技 資料庫遷移服務遷移到亞馬遜雲 科技 中,這個數字每年都在不斷增長。亞馬遜雲 科技 提供 Amazon DMS、Amazon Database Migration Service 等工具讓開發者和企業進行自助式雲遷移。另外,對於遷移過程中可能會需要的支持,可通過專業服務團隊和合作夥伴網路成員,為客戶提供專業支持,還通過 Database Freedom 項目幫助客戶降低他們的顧慮。
今年 11 月,最新產品 Babelfish for Amazon Aurora PostgreSQL 在全球和中國兩個區域正式可用,可加速企業上雲的遷移,實現讓企業可以利用原有的技術棧、原有的 SQL Server T-SQL的人員可以利用到雲資料庫進行創新。
第五個理念是 AI賦能,深度集成。 我們觀察到,ML 技術賦能資料庫開發者,開發者無需具備機器學習專業知識,就可進行機器學習操作。在此潮流下,亞馬遜雲 科技 推出 Amazon Neptune,藉由 Deep Graph Library 和 Amazon SageMaker 驅動圖神經網路。
今年 8 月,Neptune ML 在中國正式可用,允許數據工程師不需要掌握機器學習的技能直接從圖資料庫里導出數據、轉換格式、訓練模型並發布,用 gremlin 語句調用訓練成的模型在資料庫里實現推理,進行欺詐檢測,推薦物品。
目前,亞馬遜雲 科技 加速在中國區域服務落地,2021年至今新發布 60 多個資料庫服務與功能。亞馬遜雲 科技 正是通過上述五大資料庫理念,打造豐富的資料庫產品家族,在全球智能化發展趨勢下,為企業提供更快更好的數智服務,釋放數據價值,並連續六年入選 Gartner 領導者象限,得到業界和客戶的深度認可。
⑵ Oracle資料庫無響應故障處理方式
Oracle資料庫無響應故障處理方式
Oracle資料庫無響應故障,簡單地講就是資料庫實例不能響應客戶端發起的請求,客戶端提交一個SQL後,就一直處於等待資料庫實例返回結果的狀態。更嚴重的現象是客戶端根本不能連接到資料庫,發起一個連接請求後,一直處於等待狀態。Oracle資料庫無響應故障怎麼處理呢?下面跟我一起來學習Oracle資料庫無響應故障的處理方法吧!
無響應的故障現象一般有以下幾種:
1.Oracle的進程在等待某個資源或事件
這種現象一般可以從V$SESSION_WAT、V$LATCH、V$LATCHHOLDER等動態視圖中檢查進程正在等待的資源或事件,而被等待的資源或事件,一直都不能被獲取,甚至是很長時間都不可獲得。如果這個正在等待的進程持有了其他的資源,則會引起其他的進程等待,這樣就很可能引起實例中大范圍的會話發生等待。由於進程在等待資源或事件時,通常都處於SLEEP狀態,消耗的CPU資源非常少(在等待latch時要稍微多消耗一些CPU資源),所以從OS來看,CPU的消耗並不高,甚至是非常低。
這種因為等待而引起的個別進程Hang,相對比較容易處理。
2. OracleProcess Spins
所謂Spin,就是指Oracle進程中的代碼在執行某個過程時,陷入了循環。在V$SESSION視圖中,往往可以看到Hang住的會話,一直處於“ACTIVE”狀態。對於這樣的會話,用“alter system kill session ‘sid,serial#’”命令也不能完全斷開會話,會話只能被標記為“killed”,會話會繼續消耗大量的CPU。進程Spins由於是在做循環,CPU的消耗非常大,從OS上明顯可以看到這樣的進程,通常會消耗整個CPU的資源。
而對於這樣的Hang住的會話,處理起來相對比較復雜,並且為了從根本上解決問題,需要超過DBA日常維護所需要的技能。
從故障范圍來看,無響應故障可以分為以下幾種情況:
1. 單個或部分會話(進程)Hang住
這種情況屬於小范圍的故障,業務影響相對較小,一般來說只會影響業務系統的個別模塊。在一個多應用系統的資料庫上面,如果Hang住的會話比較多,則影響的可能是其中的一個應用系統。這里有一個例外,如果Hang住的進程是系統後台進程,如pmon、smon等,則影響的范圍就非常大了,最終甚至會影響整個資料庫及所有應用系統。還有值得注意的是,即使是少部分會話Hang住,也要及時處理,否則極有可能會擴散到整個系統。
2. 單個資料庫實例Hang住
這種情況造成的影響非常大。在這個實例上的所有應用系統均受到嚴重影響,並且在找到根源並最終解決問題之前,資料庫實例往往須要重啟。
3. OPS或RAC中的多個實例或所有實例都Hang住
在這種情況下,即使是OPS或RAC,都已經沒辦法提供高可用特性了。使用這個資料庫的所有應用系統將不能繼續提供服務,這種情況往往須要重啟。
無響應故障成因分析
Oracle資料庫無響應,一般主要由以下幾種原因引起:
1. 資料庫主機負載過高,嚴重超過主機承受能力
比如應用設計不當,資料庫性能低下,活動會話數的大量增加,導致資料庫主機的負載迅速增加,資料庫不能正常操作,並最終Hang住;主機物理內存嚴重不足,引起大量的換頁,特別是在SGA中的內存被大量換出到虛擬內存時,資料庫實例往往就會Hang住。
2. 日常維護不當、不正確的操作引起資料庫Hang住
比如歸檔日誌的存儲空間滿,導致資料庫不能歸檔,引起資料庫Hang住;在一個大並發的繁忙的系
統上,對DML操作比較多的大表進行move、增加外鍵約束等操作也可能使系統在短時間內負載大幅升高,並引起資料庫系統Hang住;不正確的資源計劃(Resource Plan)配置,使進程得不到足夠的CPU等。
3. Oracle資料庫的Bug
幾乎每個版本都存在著會導致資料庫系統Hang住的Bug,這些Bug會在一些特定的條件下觸發,特別是在RAC資料庫中,引起資料庫Hang住的Bug比較多。
4. 其他方面的一些原因
比如在RAC資料庫中,如果一個節點退出或加入到RAC的過程中,當進行Resource Reconfiguration時,會使系統凍結一段時間,也有可能使系統Hang住。
以上所描述的幾種常見的會導致Oracle資料庫實例Hang住的原因中,大部分的情況是可以避免的,只要維護得當,一般不會出現這種故障。對於Oracle資料庫Bug所導致的資料庫無響應故障,由於是在特定的情況下才會觸發,所以如果能夠盡量對資料庫打上最新版本的補丁,並且熟悉當前版本中會導致系統Hang住的Bug以及觸發條件,就能夠最大限度地避免這種故障的發生,提高系統的可用性。
那麼,在資料庫Hang住的情況下,如何去分析並發現導致問題的根源?一方面,由於系統Hang住會導致業務系統不可用,為了能夠盡快地恢復業務,須快速地判斷問題所在,然後Kill掉引起故障的會話和進程,或者資料庫實例不得不重啟以迅速恢復業務;但另一方面,如果只是重啟資料庫或Kill會話和進程來解決問題,在很多情況下是治標不治本的辦法,在以後故障隨時可能會出現。如何在二者之間進行抉擇呢?對於資料庫Hang故障的處理,首先是盡可能地收集到系統Hang住時的狀態數據,然後盡快地恢復業務,恢復業務後分析收集到的數據,找到資料庫系統Hang住的真正原因,然後再進行相應的處理。下一節將詳細描述資料庫系統Hang住後的處理流程。
無響應故障處理流程
對於Oracle無響應故障的處理,我們可以按下圖所示的流程進行。
值得注意的是,上圖並不是一個完整的Oracle資料庫故障處理流程圖,只是處理Oralce資料庫無響應這一類特定的故障的流程,只列出了針對這一特定類型故障處理時的關鍵處理點。不過既然是故障,所以這類故障的處理流程與其他故障的處理流程,有著非常相似的地方。
下面是整個流程的詳細說明:
1. 在出現資料庫無響應故障後,首先確認系統的影響范圍,如上節所描述的',是部分業務系統或模塊還是所有的業務系統都受影響,是不是整個實例或多個實例都無響應。同時應詢問系統維護和開發人員,受影響的系統在出現故障前是否有過變動,包括主機硬體、操作系統、網路、資料庫以及應用等。有時一個細小的變動就可能導致出現資料庫Hang住這樣嚴重的故障。曾經遇到一個庫,應用只是修改了一個SELECT語句就導致了資料庫Hang住。
2. 為了避免由於網路、資料庫監聽或客戶端因素影響分析,建議都登錄到主機上進行操作。
3. 如果主機不能登錄(為了避免干擾流程主線,這里不討論如網路問題這樣也會導致不能連接的故障),嘗試關閉出現問題的業務系統,甚至是所有的業務系統。如果關閉了所有的業務系統之後,仍然不能連接,則只有考慮重新啟動資料庫主機。在資料庫主機重新啟動後,使用操作系統工具或OSW等長期監控操作系統的資源使用,同時監控Oracle資料庫的性能和等待等。
4. 登錄上主機後,先用top、topas等命令簡單觀察一下系統。看看系統的CPU使用、物理內存和虛擬內存的使用、IO使用等情況。
5. 使用SQLPLUS連接資料庫,如果不能連接,則只能從操作系統上觀察系統中是否有異常的現象,比如佔用CPU過高的進程。使用gdb、dbx等debugger工具對資料庫進行system state mp;使用strace、truss等工具檢查異常進程的系統調用;使用pstack、procstack等工具察看異常進程的call stack等。
6. 使用SQLPLUS連接上資料庫後,進行hanganalyze、system state mp等操作;或檢查等待事件、異常會話等正在執行的SQL等待。
7. 找到故障產生的原因,如果暫時找不到原因,盡量收集數據。
8.確良如果應用急須恢復,可通過Kill會話、重啟資料庫實例等方式,先恢復應用。
9. 根據最終診斷結果,對資料庫升級打補丁,或者修改應用等方式從根本上解決問題。
怎樣避免資料庫出現無響應故障
作為Oracle資料庫DBA,除了處理故障之外,更重要的是如何預防故障的發生。根據前面對資料庫無響應故障的成因分析,在日常的維護工作中,須做到以下幾點:
1. 進行正確的維護操作
很多的資料庫無響應故障都是由於不正確的維護操作引起的。應避免在業務高峰期做大的維護操作,比如像move、加主外鍵約束等會長時間鎖表的操作。如果的確需要,盡量使用正確的操作方法。比如用ONLINE方式重建索引;建主鍵、唯一鍵約束時先建索引,然後在建約束時指定新建的索引,等等。也就是保證系統的並發性、可伸縮性,避免系統串列操作的出現。
2. 優化應用設計,優化資料庫性能
為避免性能問題導致在業務高峰期資料庫不能及時有效處理來自業務的請求,甚至於完全Hang住。對於資料庫中存在串列訪問的部分進行優化,比如latch、enqueue,還包括不合理的sequence設計等。特別是在RAC資料庫中,嚴重串列訪問等待往往更容易引起嚴重的性能問題。優化應用設計,使資料庫具有更好的可伸縮性和並行處理能力,能夠有效地避免性能問題引起的資料庫Hang住。
3. 利用監控系統隨時監控系統負載
遇到系統負載過高,內存不足,OS中虛擬內存換頁很頻繁等情況時,及時採取措施;監控Oracle資料庫的核心進程,如pmon、smon等,看是否有異常,如過高的CPU消耗。出現異常應立即處理;監控歸檔空間和日誌切換;監控資料庫中的等待事件,比如是否有大量的enqueue、log file switch (archiving needed)、resmgr:become active等待事件等。
4. 為資料庫打上補丁
很多的無響應故障是由於Oracle的Bug引起的,資料庫DBA應關注當前版本中有哪些Bug會導致資料庫Hang住,盡量為資料庫打上解決這些Bug的補丁。
;⑶ ops在聊天中什麼意思
ops的英文全稱是:oopsoopsint,表示驚訝, 狼狽時所發的喊聲。
ops在聊天中使用是表示驚嘆,類似於「哦!天吶!」的意思,也可以用作是用作口頭禪來使用。
OPS還包括其他的意思:OPS,全稱為:Open Pluggable Specification,開放式可插拔規范。是Intel與顯示器廠商共同制定的標准化數字標牌介面規范。
OPS內部組成是一個X86架構的迷你PC,採用英特爾酷睿處理器,配有內存、硬碟、多種輸入輸出介面以及Windows操作界面,尺寸為200mm x 119mm x 30mm 。
(3)資料庫ops擴展閱讀:
英文聊天中常見的感嘆詞還包括:
1、ah /ɑː/(注意h不發音)
①可以用在驚訝的時候 :
Ah, here is the thing I am after. 哎呀,我找的東西在這兒呢。
②想要抒情感嘆的時候 :
Ah, the miracle of life. 啊,這是生命的奇跡。
③有點失望可惜的時候 :
Ah! This is a waste of time! 啊,真是浪費時間!
2、Oh, boy!
①興奮的時候經常用:
Boy, oh, boy! Our team's going to win! 哇!我們隊要贏了!
②發生了糟糕的事情,想要抱怨:
"Oh, boy !」 moaned Fred, as his old car stalled out. 「唉」, 弗萊德抱怨道,這時他的車拋錨了。
3、 there
there 做語氣詞時含義也非常豐富:
①安慰或者哄別人的時候:
There! There!Never mind, you'll soon feel better. 好啦,好啦,不要緊,你馬上會好的。
②表示得意滿足——There, I've filled it up again. 瞧,我又把它灌滿了。