超大資料庫
A. 大型資料庫設計原則
一個好的資料庫產品不等於就有一個好的應用系統 如果不能設計一個合理的資料庫模型 不僅會增加客戶端和伺服器段程序的編程和維護的難度 而且將會影響系統實際運行的性能 一般來講 在一個MIS系統分析 設計 測試和試運行階段 因為數據量較小 設計人員和測試人員往往只注意到功能的實現 而很難注意到性能的薄弱之處 等到系統投入實際運行一段時間後 才發現系統的性能在降低 這時再來考慮提高系統性能則要花費更多的人力物力 而整個系統也不可避免的形成了一個打補丁工程 筆者依據多年來設計和使用資料庫的經驗 提出以下一些設計准則 供同仁們參考
命名的規范
不同的資料庫產品對對象的命名有不同的要求 因此 資料庫中的各種對象的命名 後台程序的代碼編寫應採用大小寫敏感的形式 各種對象命名長度不要超過 個字元 這樣便於應用系統適應不同的資料庫
游標(Cursor)的慎用
游標提供了對特定集合中逐行掃描的手段 一般使用游標逐行遍歷數據 根據取出的數據不同條件進行不同的操作 尤其對多表和大表定義的游標(大的數據集合)循環很容易使程序進入一個漫長的等特甚至死機 筆者在某市《住房公積金管理系統》進行日終帳戶滾積數計息處理時 對一個 萬個帳戶的游標處理導致程序進入了一個無限期的等特(後經測算需 個小時才能完成)(硬體環境 Alpha/ Mram Sco Unix Sybase ) 後根據不同的條件改成用不同的UPDATE語句得以在二十分鍾之內完成 示例如下
Declare Mycursor cursor for select count_no from COUNT
Open Mycursor
Fetch Mycursor into @vcount_no
While (@@sqlstatus= )
Begin
If @vcount_no= 條件
操作
If @vcount_no= 條件
操作
Fetch Mycursor into @vcount_no
End
改為
Update COUNT set 操作 for 條件
Update COUNT set 操作 for 條件
在有些場合 有時也非得使用游標 此時也可考慮將符合條件的數據行轉入臨時表中 再對臨時表定義游標進行操作 可時性能得到明顯提高 筆者在某地市〈電信收費系統〉資料庫後台程序設計中 對一個表( 萬行中符合條件的 多行數據)進行游標操作(硬體環境 PC伺服器 PII Mram NT Ms Sqlserver ) 示例如下
Create #tmp /* 定義臨時表 */
(欄位
欄位
)
Insert into #tmp select * from TOTAL where
條件 /* TOTAL中 萬行 符合條件只有幾十行 */
Declare Mycursor cursor for select * from #tmp
/*對臨時表定義游標*/
索引(Index)的使用原則
創建索引一般有以下兩個目的 維護被索引列的唯一性和提供快速訪問表中數據的策略 大型資料庫有兩種索引即簇索引和非簇索引 一個沒有簇索引的表是按堆結構存儲數據 所有的數據均添加在表的尾部 而建立了簇索引的表 其數據在物理上會按照簇索引鍵的順序存儲 一個表只允許有一個簇索引 因此 根據B樹結構 可以理解添加任何一種索引均能提高按索引列查詢的速度 但會降低插入 更新 刪除操作的性能 尤其是當填充因子(Fill Factor)較大時 所以對索引較多的表進行頻繁的插入 更新 刪除操作 建表和索引時因設置較小的填充因子 以便在各數據頁中留下較多的自由空間 減少頁分割及重新組織的工作
數據的一致性和完整性
為了保證資料庫的一致性和完整性 設計人員往往會設計過多的表間關聯(Relation) 盡可能的降低數據的冗餘 表間關聯是一種強制性措施 建立後 對父表(Parent Table)和子表(Child Table)的插入 更新 刪除操作均要佔用系統的開銷 另外 最好不要用Identify 屬性欄位作為主鍵與子表關聯 如果數據冗餘低 數據的完整性容易得到保證 但增加了表間連接查詢的操作 為了提高系統的響應時間 合理的數據冗餘也是必要的 使用規則(Rule)和約束(Check)來防止系統操作人員誤輸入造成數據的錯誤是設計人員的另一種常用手段 但是 不必要的規則和約束也會佔用系統的不必要開銷 需要注意的是 約束對數據的有效性驗證要比規則快 所有這些 設計人員在設計階段應根據系統操作的類型 頻度加以均衡考慮
事務的陷阱
事務是在一次性完成的一組操作 雖然這些操作是單個的操作 SQL Server能夠保證這組操作要麼全部都完成 要麼一點都不做 正是大型資料庫的這一特性 使得數據的完整性得到了極大的保證
眾所周知 SQL Server為每個獨立的SQL語句都提供了隱含的事務控制 使得每個DML的數據操作得以完整提交或回滾 但是SQL Server還提供了顯式事務控制語句
BEGIN TRANSACTION 開始一個事務
MIT TRANSACTION 提交一個事務
ROLLBACK TRANSACTION 回滾一個事務
事務可以嵌套 可以通過全局變數@@trancount檢索到連接的事務處理嵌套層次 需要加以特別注意並且極容易使編程人員犯錯誤的是 每個顯示或隱含的事物開始都使得該變數加 每個事務的提交使該變數減 每個事務的回滾都會使得該變數置 而只有當該變數為 時的事務提交(最後一個提交語句時) 這時才把物理數據寫入磁碟
資料庫性能調整
在計算機硬體配置和網路設計確定的情況下 影響到應用系統性能的因素不外乎為資料庫性能和客戶端程序設計 而大多數資料庫設計員採用兩步法進行資料庫設計 首先進行邏輯設計 而後進行物理設計 資料庫邏輯設計去除了所有冗餘數據 提高了數據吞吐速度 保證了數據的完整性 清楚地表達數據元素之間的關系 而對於多表之間的關聯查詢(尤其是大數據表)時 其性能將會降低 同時也提高了客 戶端程序的編程難度 因此 物理設計需折衷考慮 根據業務規則 確定對關聯表的數據量大小 數據項的訪問頻度 對此類數據表頻繁的關聯查詢應適當提高數據冗餘設計
數據類型的選擇
數據類型的合理選擇對於資料庫的性能和操作具有很大的影響 有關這方面的書籍也有不少的闡述 這里主要介紹幾點經驗
Identify欄位不要作為表的主鍵與其它表關聯 這將會影響到該表的數據遷移
Text 和Image欄位屬指針型數據 主要用來存放二進制大型對象(BLOB) 這類數據的操作相比其它數據類型較慢 因此要避開使用
日期型欄位的優點是有眾多的日期函數支持 因此 在日期的大小比較 加減操作上非常簡單 但是 在按照日期作為條件的查詢操作也要用函數 相比其它數據類型速度上就慢許多 因為用函數作為查詢的條件時 伺服器無法用先進的性能策略來優化查詢而只能進行表掃描遍歷每行
例如 要從DATA_TAB 中(其中有一個名為DATE的日期欄位)查詢 年的所有記錄
lishixin/Article/program/Oracle/201311/17929
B. 全球最大的資料庫是什麼
世界上最大的十個資料庫:x0dx0a1.全球氣象數據中心: 220千兆網路數據,6個petabytes的其它數據。 x0dx0a2.全美能源研究科技計算中心: 2.8個petabytes (1個petabyte 約等於1千千兆)。x0dx0a3.AT&T: 323千兆信息。 x0dx0a4.Google: 每天有9千1百萬次搜索量。x0dx0a5.Sprint: 具體數據容量不詳,但其擁有2.85萬億條資料庫行。x0dx0a6.ChoicePoint: 250千兆數據。x0dx0a7.YouTube: 45千兆視頻。x0dx0a8.Amazon: 42千兆數據。x0dx0a9.中央情報局: (Secret)。x0dx0a10.美國國會圖書館: 1億3千萬項條目(書籍、圖片、地圖等),20千兆文本。
C. 什麼是大型資料庫
大型資料庫是IBM公司開發
他有兩種資料庫類型;一種是關系資料庫,典型代表產品:DB2;另一種則是層次資料庫,代表產品:IMS層次資料庫。
大型資料庫的數據定義包括資料庫模式定義和外模式定義。大型資料庫的資料庫模式是物理資料庫記錄型的集合。每個物理資料庫記錄型對應於層次數據模型中的一個層次模式,由一個DBD定義。物理資料庫記錄型到存儲資料庫的映射包含在這個物理資料庫記錄型的DBD定義中。
大型資料庫的外模式是邏輯資料庫記錄型的集合。每個邏輯資料庫記錄型由一個PCB定義。一個邏輯資料庫記錄型到大型資料庫模式的映射包含在這個邏輯資料庫記錄型的PCB定義中。用戶是按照外模式操縱數據的。
D. 如何導入超大mysql資料庫備份文件
在mysql中導入/導出超大的sql文本文件,我們可以使用很多方法實例,如有:客戶端直接命令操作,分塊導入,客戶端用source命令操作等等。
在實際工作中,有時經常地時行mysql資料庫的導入和導入操作,但對於大型sql文件導入時,phpmyadmin是不行的,有太多限制,比如記錄,內存等!
多種方案收集,如下:
方案一:客戶端直接命令操作(此方法是我比較喜歡的)
剛恢復一個電商網站mysql備份數據,此備份文件有300多M,因為phpmyadmin支持上傳有限,文件太大IE停止響應,所以在本地用
代碼如下
復制代碼
mysql -u root -p root jiahuibuydb<
c:/yebihai.sql
但沒導入進去,出來一大堆mysql的參數提示,不認輸入的命令參數,後來寫成下面這個樣子,就是去掉了參數和數據之間的空格
代碼如下
復制代碼
mysql -uroot -proot jiahuibuydb<
c:/yebihai.sql
導入就OK了
導出命令:
a)導出整個庫
mysqlmp -u 用戶名 -p 資料庫名 > 導出的文件名
代碼如下
復制代碼
mysqlmp -u root -p student
>d:/yebihai.sql
b)導出一個表
mysqlmp -u 用戶名 -p 資料庫名 表名> 導出的文件名
方案二:分塊導入
代碼如下
復制代碼
<?
//用來快速Mysql的大數據備份
//使用前請首先按照代碼注釋修改要導入的SQL文件名、資料庫主機名、資料庫用戶名、密碼、資料庫名
//同時將資料庫文件和本文本一起ftp導網站目錄,然後以web方式訪問此文件即可
$file_name="sql.sql"; //要導入的SQL文件名
$dbhost="localhost"; //資料庫主機名
$dbuser="user"; //資料庫用戶名
$dbpass="pass"; //資料庫密碼
$dbname="dbname";
//資料庫名
set_time_limit(0); //設置超時時間為0,表示一直執行。當php在safe
mode模式下無效,此時可能會導致導入超時,此時需要分段導入
$fp = @fopen($file_name, "r") or
die("不能打開SQL文件 $file_name");//打開文件
mysql_connect($dbhost, $dbuser,
$dbpass) or die("不能連接資料庫 $dbhost");//連接資料庫
mysql_select_db($dbname)
or die ("不能打開資料庫 $dbname");//打開資料庫
mysql_query('set names utf8');
echo "正在執行導入操作";
while($SQL=GetNextSQL()){
if
(!mysql_query($SQL)){
echo
"執行出錯www.111cn.net:".mysql_error()."
";
echo
"SQL語句為:
".$SQL."
";
};
}
echo
"導入完成";
fclose($fp) or die("Can』t close file $file_name");//關閉文件
mysql_close();
//從文件中逐條取SQL
function GetNextSQL() {
global $fp;
$sql="";
while ($line =
@fgets($fp, 40960)) {
$line =
trim($line);
//以下三句在高版本php中不需要,在部分低版本中也許需要修改
$line =
str_replace("////","//",$line);
$line =
str_replace("/』","』",$line);
$line =
str_replace("//r//n",chr(13).chr(10),$line);
// $line
= stripcslashes($line);
if (strlen($line)>1)
{
if ($line[0]=="-" && $line[1]=="-")
{
continue;
}
}
$sql.=$line.chr(13).chr(10);
if
(strlen($line)>0){
if
($line[strlen($line)-1]==";"){
break;
}
}
}
return $sql;
}
?>
方案三:客戶端用source命令操作
比較好的辦法仍是用mysql的source命令:
一、在客戶端下操作:
1、進行入客戶端 代碼如下
復制代碼
2、mysql>use 資料庫名(如果沒有,先建一個)
3、mysql>set names 'utf8'; (一般看導入的是什麼格式的文件)
4、mysql>source d:/aaa.sql;
即可正常導入,如果有錯,可以看出錯提示
二、PHP文件操作:
建立a.php
裡面有下面內容 代碼如下
復制代碼
mysql_connet('xxxx');
mysql_query("set names 'utf8'");
mysql_query("source d:/aaa.sql'");
原理同上,主要方便了無法使用命令行用戶的操作
方案四:下面教大家一個簡單有效的辦法,適合不會使用命令窗口的非技術人員,可以導入任意大小的mysql資料庫,理論上不論您的資料庫備份文件多大,都可以導入
方法如下:
1.將資料庫備份文件(如backup.sql)上傳至網站根目錄。
2.將以下代碼保存為mysql.php文件,上傳至網站根目錄。
代碼如下
復制代碼
system("mysql -hdbhost -udbuser -ppassword dbname < backup.sql");
print "導入成功";
其中
dbhost 改為您的資料庫伺服器地址(小提示:一般主機默認資料庫伺服器地址是:localhost)
dbuser 改為您的資料庫用戶名
password 改為您的資料庫用戶密碼
dbname 改為您的資料庫名(導入的時候此庫必須先建立好,否則會失敗並且不會進行任何提示)
backup.sql表示通過ftp上傳到網站根目錄下資料庫文件的文件名(該文件是解壓縮後的文件)
3.在瀏覽器裡面訪問mysql.php, 那麼就在瀏覽器裡面輸入/mysql.php,只要瀏覽器一訪問這個mysql.php文件,數據就開始導入,數據導入結束後,就會顯示「導入成功」的字樣。這個時間根據您要導入的數據大小決定,一般時間很短
E. IT培訓分享大規模資料庫的性能和伸縮性的優化
在需要支持移動/平舉正板電腦應用及普通桌面瀏覽器訪問的時代,網站的普及率和有效性很大程度上取決於其可用性和性能。一個訪問緩慢的網站會使得訪問者或潛在的客戶流失,並導致商業的失敗。IT培訓認為一個訪問速度相當快的網站將會決定訪客是否會使用網站提供的產品或服務。
擁有大規模資料庫的網站始終需要適當的關注、配置、優化、調整和維護,以確保網站的快速載入。這篇文章將討論如何優化有海量數據的MySQL資料庫。
選擇InnoDB作為存儲引擎
大型產品的資料庫對於可靠性和並發性的要求較高,InnoDB作為默認的MySQL存儲引擎,相對於MyISAM來說是個更佳的選擇。
優化資料庫結構
組織資料庫的schema、表和欄位以降低I/O的開銷,將相關項保存在一起,並提前規劃,以便隨著數據量的增長,性能可以保持較高的水平。
設計數據表應盡量使其佔用的空間最小化,表的主鍵應盡可能短。
對於InnoDB表,主鍵所在的列在每個輔助索引條目中都是可復制的,因此如果有很多輔助索引,那麼一個短的主鍵可以節省大量空間。
僅創建你需要改進查詢性能的索引。索引有助於檢索,但是會增加插入和更新操作的執行時間。
InnoDB的ChangeBuffering特性
InnoDB提供了changebuffering的配置,可減少維護輔助索引所需的磁碟I/O。大規模的資料庫可能會遇到大量的表操作和大量的I/O,以保證輔助索引保持最新。當相關頁面不在緩沖池裡面時,InnoDB的changebuffer將會更改緩存到輔助索引條目正滑悔,讓悶從而避免因不能立即從磁碟讀取頁面而導致耗時的I/O操作。當頁面被載入到緩沖池時,緩沖的更改將被合並,更新的頁面之後會刷新到磁碟。這樣做可提高性能,適用於MySQL5.5及更高版本。
F. 資料庫過大該怎麼處理
問題分析:這種問題是由於伺服器的資料庫文件或者日誌太大造成的,那麼我們清理下日誌或者收縮數據
庫就可以了。解決方法:一
第一種解決方案,不限制資料庫文件大小,當然,這是在您的伺服器空間足夠的情況下
二
第二種解決方案,直接清理資料庫日誌文件
我們打開資料庫,然後選擇分離資料庫,找到日誌文件並刪除,然後附加,會自動產生
一個初始的很小的日誌文件
三
第三種收縮資料庫日誌文件,設置資料庫文件或者日誌文件收縮到一定大小就可以。
以上各種解決方案,可以根據不同情況選擇不同方案,為防止對資料庫操作不熟悉,操
作失誤,修改前請先備份好資料庫。
G. 中國最大的資料庫在哪
中國最大的資料庫在北京昌平中國石油科技交流中心。
北京昌平夢想雲平台統一數據湖已管理48萬口井、600個油氣藏、7000個地震工區、4萬座站庫,共計1.7PB、橫跨60多年的數據資產,涵蓋6大領域、15個專業,實現上游業務核心數據全面入湖共享,形成了國內最大的勘探開發數據湖。
H. 超大Oracle資料庫備份,沒有足夠的磁碟空間,怎麼備份
那就不全部備份,而是分別備份。也就是數據分級。都是增量備份啊。如果是全部備份,本來空間就不夠,怎麼全部備份。
比如最重要的數據,每天備份,然後保留一個月。而且是在線備份。比如你的數據有10T,那麼最重要的數據不會超過10G,也就是千分之一。就算是千分之2,也就是20G,一個月大約600G,這點空間還是有的,大數量一般展示層面也就這個比例。
次一級的數據則每星期備份一次,保留一個月內的。也就是保留四個備份。這部分數據大約5%-10%。如按照10T計算,那麼就是500G-1T,這是散衫總共的,增量肯定沒有這么大,估計有1.5T的空間足夠了。加上上面的也就是2T空間。
再下一層,就把非常重要的數據基礎數據備份出來(也就是說有些基礎數據是不備份的),這部分數據的量大概和上面的差不多也是1.5T。那麼三者加起來就叢掘棗是3.6T左右,如果想更省一部分,那麼3T也就差不多了。
10T的數據量3T的在線備份,差不多了。剩下的有需要離線備份用離線備份,或者帶庫備份,其他的如果有滲拆辦法就備份,是在沒辦法放棄也可以。雖然都說數據很重要,可是沒有備份空間也是巧婦難為無米之炊啊。
I. 現在比較大型的資料庫有哪些
oracle資料庫,sqlserver資料庫,sysbase
mysql資料庫,mogongdb
J. 全球最大的資料庫是什麼
世界上最大的十個資料庫:
1.全球氣象數據中心: 220千兆網路數據,6個petabytes的其它數據。
2.全美能源研究科技計算中心: 2.8個petabytes (1個petabyte 約等於1千千兆)。
3.AT&T: 323千兆信息。
4.Google: 每天有9千1百萬次搜索量。
5.Sprint: 具體數據容量不詳,但其擁有2.85萬億條資料庫行。
6.ChoicePoint: 250千兆數據。
7.YouTube: 45千兆視頻。
8.Amazon: 42千兆數據。
9.中央情報局: (Secret)。
10.美國國會圖書館: 1億3千萬項條目(書籍、圖片、地圖等),20千兆文本。