資料庫沉余
A. 資料庫與數據倉庫的本質區別是什麼
1、存放值區別:
資料庫只存放在當前值,數據倉庫存放歷史值;
2、數據變化區別:
資料庫內數據是動態變化的,只要有業務發生,數據就會被更新,而數據倉庫則是靜態的歷史數據,只能定期添加、刷新;
3、數據結構區別:
資料庫中的數據結構比較復雜,有各種結構以適合業務處理系統的需要,而數據倉庫中的數據結構則相對簡單;
4、訪問頻率不同:
資料庫中數據訪問頻率較高,但訪問量較少,而數據倉庫的訪問頻率低但訪問量卻很高;
5、目標人群區別:
資料庫中數據的目標是面向業務處理人員的,為業務處理人員提供信息處理的支持,而數據倉庫則是面向高層管理人員的,為其提供決策支持;
B. Newsql為何使傳統關系資料庫黯然失色
傳統資料庫仍舊會有一席之地,至於NewSQL的優勢又是什麼,簡單和大家說說:
首先關於「中間件+關系資料庫分庫分表」算不算NewSQL分布式資料庫問題,國外有篇論文pavlo-newsql-sigmodrec,如果根據該文中的分類,Spanner、TiDB、OB算是第一種新架構型,Sharding-Sphere、Mycat、DRDS等中間件方案算是第二種(文中還有第三種雲資料庫,本文暫不詳細介紹)。
基於中間件(包括SDK和Proxy兩種形式)+傳統關系資料庫(分庫分表)模式是不是分布式架構?我覺得是的,因為存儲確實也分布式了,也能實現橫向擴展。但是不是「偽」分布式資料庫?從架構先進性來看,這么說也有一定道理。
「偽」主要體現在中間件層與底層DB重復的SQL解析與執行計劃生成、存儲引擎基於B+Tree等,這在分布式資料庫架構中實際上冗餘低效的。為了避免引起真偽分布式資料庫的口水戰,本文中NewSQL資料庫特指這種新架構NewSQL資料庫。
NewSQL資料庫相比中間件+分庫分表的先進在哪兒?畫一個簡單的架構對比圖:
- 傳統資料庫面向磁碟設計,基於內存的存儲管理及並發控制,不如NewSQL資料庫那般高效利用;
- 中間件模式SQL解析、執行計劃優化等在中間件與資料庫中重復工作,效率相比較低;
- NewSQL資料庫的分布式事務相比於XA進行了優化,性能更高;
- 新架構NewSQL資料庫存儲設計即為基於paxos(或Raft)協議的多副本,相比於傳統資料庫主從模式(半同步轉非同步後也存在丟數問題),在實現了真正的高可用、高可靠(RTO<30s,RPO=0);
- NewSQL資料庫天生支持數據分片,數據的遷移、擴容都是自動化的,大大減輕了DBA的工作,同時對應用透明,無需在SQL指定分庫分表鍵。