超大数据库
A. 大型数据库设计原则
一个好的数据库产品不等于就有一个好的应用系统 如果不能设计一个合理的数据库模型 不仅会增加客户端和服务器段程序的编程和维护的难度 而且将会影响系统实际运行的性能 一般来讲 在一个MIS系统分析 设计 测试和试运行阶段 因为数据量较小 设计人员和测试人员往往只注意到功能的实现 而很难注意到性能的薄弱之处 等到系统投入实际运行一段时间后 才发现系统的性能在降低 这时再来考虑提高系统性能则要花费更多的人力物力 而整个系统也不可避免的形成了一个打补丁工程 笔者依据多年来设计和使用数据库的经验 提出以下一些设计准则 供同仁们参考
命名的规范
不同的数据库产品对对象的命名有不同的要求 因此 数据库中的各种对象的命名 后台程序的代码编写应采用大小写敏感的形式 各种对象命名长度不要超过 个字符 这样便于应用系统适应不同的数据库
游标(Cursor)的慎用
游标提供了对特定集合中逐行扫描的手段 一般使用游标逐行遍历数据 根据取出的数据不同条件进行不同的操作 尤其对多表和大表定义的游标(大的数据集合)循环很容易使程序进入一个漫长的等特甚至死机 笔者在某市《住房公积金管理系统》进行日终帐户滚积数计息处理时 对一个 万个帐户的游标处理导致程序进入了一个无限期的等特(后经测算需 个小时才能完成)(硬件环境 Alpha/ Mram Sco Unix Sybase ) 后根据不同的条件改成用不同的UPDATE语句得以在二十分钟之内完成 示例如下
Declare Mycursor cursor for select count_no from COUNT
Open Mycursor
Fetch Mycursor into @vcount_no
While (@@sqlstatus= )
Begin
If @vcount_no= 条件
操作
If @vcount_no= 条件
操作
Fetch Mycursor into @vcount_no
End
改为
Update COUNT set 操作 for 条件
Update COUNT set 操作 for 条件
在有些场合 有时也非得使用游标 此时也可考虑将符合条件的数据行转入临时表中 再对临时表定义游标进行操作 可时性能得到明显提高 笔者在某地市〈电信收费系统〉数据库后台程序设计中 对一个表( 万行中符合条件的 多行数据)进行游标操作(硬件环境 PC服务器 PII Mram NT Ms Sqlserver ) 示例如下
Create #tmp /* 定义临时表 */
(字段
字段
)
Insert into #tmp select * from TOTAL where
条件 /* TOTAL中 万行 符合条件只有几十行 */
Declare Mycursor cursor for select * from #tmp
/*对临时表定义游标*/
索引(Index)的使用原则
创建索引一般有以下两个目的 维护被索引列的唯一性和提供快速访问表中数据的策略 大型数据库有两种索引即簇索引和非簇索引 一个没有簇索引的表是按堆结构存储数据 所有的数据均添加在表的尾部 而建立了簇索引的表 其数据在物理上会按照簇索引键的顺序存储 一个表只允许有一个簇索引 因此 根据B树结构 可以理解添加任何一种索引均能提高按索引列查询的速度 但会降低插入 更新 删除操作的性能 尤其是当填充因子(Fill Factor)较大时 所以对索引较多的表进行频繁的插入 更新 删除操作 建表和索引时因设置较小的填充因子 以便在各数据页中留下较多的自由空间 减少页分割及重新组织的工作
数据的一致性和完整性
为了保证数据库的一致性和完整性 设计人员往往会设计过多的表间关联(Relation) 尽可能的降低数据的冗余 表间关联是一种强制性措施 建立后 对父表(Parent Table)和子表(Child Table)的插入 更新 删除操作均要占用系统的开销 另外 最好不要用Identify 属性字段作为主键与子表关联 如果数据冗余低 数据的完整性容易得到保证 但增加了表间连接查询的操作 为了提高系统的响应时间 合理的数据冗余也是必要的 使用规则(Rule)和约束(Check)来防止系统操作人员误输入造成数据的错误是设计人员的另一种常用手段 但是 不必要的规则和约束也会占用系统的不必要开销 需要注意的是 约束对数据的有效性验证要比规则快 所有这些 设计人员在设计阶段应根据系统操作的类型 频度加以均衡考虑
事务的陷阱
事务是在一次性完成的一组操作 虽然这些操作是单个的操作 SQL Server能够保证这组操作要么全部都完成 要么一点都不做 正是大型数据库的这一特性 使得数据的完整性得到了极大的保证
众所周知 SQL Server为每个独立的SQL语句都提供了隐含的事务控制 使得每个DML的数据操作得以完整提交或回滚 但是SQL Server还提供了显式事务控制语句
BEGIN TRANSACTION 开始一个事务
MIT TRANSACTION 提交一个事务
ROLLBACK TRANSACTION 回滚一个事务
事务可以嵌套 可以通过全局变量@@trancount检索到连接的事务处理嵌套层次 需要加以特别注意并且极容易使编程人员犯错误的是 每个显示或隐含的事物开始都使得该变量加 每个事务的提交使该变量减 每个事务的回滚都会使得该变量置 而只有当该变量为 时的事务提交(最后一个提交语句时) 这时才把物理数据写入磁盘
数据库性能调整
在计算机硬件配置和网络设计确定的情况下 影响到应用系统性能的因素不外乎为数据库性能和客户端程序设计 而大多数数据库设计员采用两步法进行数据库设计 首先进行逻辑设计 而后进行物理设计 数据库逻辑设计去除了所有冗余数据 提高了数据吞吐速度 保证了数据的完整性 清楚地表达数据元素之间的关系 而对于多表之间的关联查询(尤其是大数据表)时 其性能将会降低 同时也提高了客 户端程序的编程难度 因此 物理设计需折衷考虑 根据业务规则 确定对关联表的数据量大小 数据项的访问频度 对此类数据表频繁的关联查询应适当提高数据冗余设计
数据类型的选择
数据类型的合理选择对于数据库的性能和操作具有很大的影响 有关这方面的书籍也有不少的阐述 这里主要介绍几点经验
Identify字段不要作为表的主键与其它表关联 这将会影响到该表的数据迁移
Text 和Image字段属指针型数据 主要用来存放二进制大型对象(BLOB) 这类数据的操作相比其它数据类型较慢 因此要避开使用
日期型字段的优点是有众多的日期函数支持 因此 在日期的大小比较 加减操作上非常简单 但是 在按照日期作为条件的查询操作也要用函数 相比其它数据类型速度上就慢许多 因为用函数作为查询的条件时 服务器无法用先进的性能策略来优化查询而只能进行表扫描遍历每行
例如 要从DATA_TAB 中(其中有一个名为DATE的日期字段)查询 年的所有记录
lishixin/Article/program/Oracle/201311/17929
B. 全球最大的数据库是什么
世界上最大的十个数据库:x0dx0a1.全球气象数据中心: 220千兆网络数据,6个petabytes的其它数据。 x0dx0a2.全美能源研究科技计算中心: 2.8个petabytes (1个petabyte 约等于1千千兆)。x0dx0a3.AT&T: 323千兆信息。 x0dx0a4.Google: 每天有9千1百万次搜索量。x0dx0a5.Sprint: 具体数据容量不详,但其拥有2.85万亿条数据库行。x0dx0a6.ChoicePoint: 250千兆数据。x0dx0a7.YouTube: 45千兆视频。x0dx0a8.Amazon: 42千兆数据。x0dx0a9.中央情报局: (Secret)。x0dx0a10.美国国会图书馆: 1亿3千万项条目(书籍、图片、地图等),20千兆文本。
C. 什么是大型数据库
大型数据库是IBM公司开发
他有两种数据库类型;一种是关系数据库,典型代表产品:DB2;另一种则是层次数据库,代表产品:IMS层次数据库。
大型数据库的数据定义包括数据库模式定义和外模式定义。大型数据库的数据库模式是物理数据库记录型的集合。每个物理数据库记录型对应于层次数据模型中的一个层次模式,由一个DBD定义。物理数据库记录型到存储数据库的映射包含在这个物理数据库记录型的DBD定义中。
大型数据库的外模式是逻辑数据库记录型的集合。每个逻辑数据库记录型由一个PCB定义。一个逻辑数据库记录型到大型数据库模式的映射包含在这个逻辑数据库记录型的PCB定义中。用户是按照外模式操纵数据的。
D. 如何导入超大mysql数据库备份文件
在mysql中导入/导出超大的sql文本文件,我们可以使用很多方法实例,如有:客户端直接命令操作,分块导入,客户端用source命令操作等等。
在实际工作中,有时经常地时行mysql数据库的导入和导入操作,但对于大型sql文件导入时,phpmyadmin是不行的,有太多限制,比如记录,内存等!
多种方案收集,如下:
方案一:客户端直接命令操作(此方法是我比较喜欢的)
刚恢复一个电商网站mysql备份数据,此备份文件有300多M,因为phpmyadmin支持上传有限,文件太大IE停止响应,所以在本地用
代码如下
复制代码
mysql -u root -p root jiahuibuydb<
c:/yebihai.sql
但没导入进去,出来一大堆mysql的参数提示,不认输入的命令参数,后来写成下面这个样子,就是去掉了参数和数据之间的空格
代码如下
复制代码
mysql -uroot -proot jiahuibuydb<
c:/yebihai.sql
导入就OK了
导出命令:
a)导出整个库
mysqlmp -u 用户名 -p 数据库名 > 导出的文件名
代码如下
复制代码
mysqlmp -u root -p student
>d:/yebihai.sql
b)导出一个表
mysqlmp -u 用户名 -p 数据库名 表名> 导出的文件名
方案二:分块导入
代码如下
复制代码
<?
//用来快速Mysql的大数据备份
//使用前请首先按照代码注释修改要导入的SQL文件名、数据库主机名、数据库用户名、密码、数据库名
//同时将数据库文件和本文本一起ftp导网站目录,然后以web方式访问此文件即可
$file_name="sql.sql"; //要导入的SQL文件名
$dbhost="localhost"; //数据库主机名
$dbuser="user"; //数据库用户名
$dbpass="pass"; //数据库密码
$dbname="dbname";
//数据库名
set_time_limit(0); //设置超时时间为0,表示一直执行。当php在safe
mode模式下无效,此时可能会导致导入超时,此时需要分段导入
$fp = @fopen($file_name, "r") or
die("不能打开SQL文件 $file_name");//打开文件
mysql_connect($dbhost, $dbuser,
$dbpass) or die("不能连接数据库 $dbhost");//连接数据库
mysql_select_db($dbname)
or die ("不能打开数据库 $dbname");//打开数据库
mysql_query('set names utf8');
echo "正在执行导入操作";
while($SQL=GetNextSQL()){
if
(!mysql_query($SQL)){
echo
"执行出错www.111cn.net:".mysql_error()."
";
echo
"SQL语句为:
".$SQL."
";
};
}
echo
"导入完成";
fclose($fp) or die("Can’t close file $file_name");//关闭文件
mysql_close();
//从文件中逐条取SQL
function GetNextSQL() {
global $fp;
$sql="";
while ($line =
@fgets($fp, 40960)) {
$line =
trim($line);
//以下三句在高版本php中不需要,在部分低版本中也许需要修改
$line =
str_replace("////","//",$line);
$line =
str_replace("/’","’",$line);
$line =
str_replace("//r//n",chr(13).chr(10),$line);
// $line
= stripcslashes($line);
if (strlen($line)>1)
{
if ($line[0]=="-" && $line[1]=="-")
{
continue;
}
}
$sql.=$line.chr(13).chr(10);
if
(strlen($line)>0){
if
($line[strlen($line)-1]==";"){
break;
}
}
}
return $sql;
}
?>
方案三:客户端用source命令操作
比较好的办法仍是用mysql的source命令:
一、在客户端下操作:
1、进行入客户端 代码如下
复制代码
2、mysql>use 数据库名(如果没有,先建一个)
3、mysql>set names 'utf8'; (一般看导入的是什么格式的文件)
4、mysql>source d:/aaa.sql;
即可正常导入,如果有错,可以看出错提示
二、PHP文件操作:
建立a.php
里面有下面内容 代码如下
复制代码
mysql_connet('xxxx');
mysql_query("set names 'utf8'");
mysql_query("source d:/aaa.sql'");
原理同上,主要方便了无法使用命令行用户的操作
方案四:下面教大家一个简单有效的办法,适合不会使用命令窗口的非技术人员,可以导入任意大小的mysql数据库,理论上不论您的数据库备份文件多大,都可以导入
方法如下:
1.将数据库备份文件(如backup.sql)上传至网站根目录。
2.将以下代码保存为mysql.php文件,上传至网站根目录。
代码如下
复制代码
system("mysql -hdbhost -udbuser -ppassword dbname < backup.sql");
print "导入成功";
其中
dbhost 改为您的数据库服务器地址(小提示:一般主机默认数据库服务器地址是:localhost)
dbuser 改为您的数据库用户名
password 改为您的数据库用户密码
dbname 改为您的数据库名(导入的时候此库必须先建立好,否则会失败并且不会进行任何提示)
backup.sql表示通过ftp上传到网站根目录下数据库文件的文件名(该文件是解压缩后的文件)
3.在浏览器里面访问mysql.php, 那么就在浏览器里面输入/mysql.php,只要浏览器一访问这个mysql.php文件,数据就开始导入,数据导入结束后,就会显示“导入成功”的字样。这个时间根据您要导入的数据大小决定,一般时间很短
E. IT培训分享大规模数据库的性能和伸缩性的优化
在需要支持移动/平举正板电脑应用及普通桌面浏览器访问的时代,网站的普及率和有效性很大程度上取决于其可用性和性能。一个访问缓慢的网站会使得访问者或潜在的客户流失,并导致商业的失败。IT培训认为一个访问速度相当快的网站将会决定访客是否会使用网站提供的产品或服务。
拥有大规模数据库的网站始终需要适当的关注、配置、优化、调整和维护,以确保网站的快速加载。这篇文章将讨论如何优化有海量数据的MySQL数据库。
选择InnoDB作为存储引擎
大型产品的数据库对于可靠性和并发性的要求较高,InnoDB作为默认的MySQL存储引擎,相对于MyISAM来说是个更佳的选择。
优化数据库结构
组织数据库的schema、表和字段以降低I/O的开销,将相关项保存在一起,并提前规划,以便随着数据量的增长,性能可以保持较高的水平。
设计数据表应尽量使其占用的空间最小化,表的主键应尽可能短。
对于InnoDB表,主键所在的列在每个辅助索引条目中都是可复制的,因此如果有很多辅助索引,那么一个短的主键可以节省大量空间。
仅创建你需要改进查询性能的索引。索引有助于检索,但是会增加插入和更新操作的执行时间。
InnoDB的ChangeBuffering特性
InnoDB提供了changebuffering的配置,可减少维护辅助索引所需的磁盘I/O。大规模的数据库可能会遇到大量的表操作和大量的I/O,以保证辅助索引保持最新。当相关页面不在缓冲池里面时,InnoDB的changebuffer将会更改缓存到辅助索引条目正滑悔,让闷从而避免因不能立即从磁盘读取页面而导致耗时的I/O操作。当页面被加载到缓冲池时,缓冲的更改将被合并,更新的页面之后会刷新到磁盘。这样做可提高性能,适用于MySQL5.5及更高版本。
F. 数据库过大该怎么处理
问题分析:这种问题是由于服务器的数据库文件或者日志太大造成的,那么我们清理下日志或者收缩数据
库就可以了。解决方法:一
第一种解决方案,不限制数据库文件大小,当然,这是在您的服务器空间足够的情况下
二
第二种解决方案,直接清理数据库日志文件
我们打开数据库,然后选择分离数据库,找到日志文件并删除,然后附加,会自动产生
一个初始的很小的日志文件
三
第三种收缩数据库日志文件,设置数据库文件或者日志文件收缩到一定大小就可以。
以上各种解决方案,可以根据不同情况选择不同方案,为防止对数据库操作不熟悉,操
作失误,修改前请先备份好数据库。
G. 中国最大的数据库在哪
中国最大的数据库在北京昌平中国石油科技交流中心。
北京昌平梦想云平台统一数据湖已管理48万口井、600个油气藏、7000个地震工区、4万座站库,共计1.7PB、横跨60多年的数据资产,涵盖6大领域、15个专业,实现上游业务核心数据全面入湖共享,形成了国内最大的勘探开发数据湖。
H. 超大Oracle数据库备份,没有足够的磁盘空间,怎么备份
那就不全部备份,而是分别备份。也就是数据分级。都是增量备份啊。如果是全部备份,本来空间就不够,怎么全部备份。
比如最重要的数据,每天备份,然后保留一个月。而且是在线备份。比如你的数据有10T,那么最重要的数据不会超过10G,也就是千分之一。就算是千分之2,也就是20G,一个月大约600G,这点空间还是有的,大数量一般展示层面也就这个比例。
次一级的数据则每星期备份一次,保留一个月内的。也就是保留四个备份。这部分数据大约5%-10%。如按照10T计算,那么就是500G-1T,这是散衫总共的,增量肯定没有这么大,估计有1.5T的空间足够了。加上上面的也就是2T空间。
再下一层,就把非常重要的数据基础数据备份出来(也就是说有些基础数据是不备份的),这部分数据的量大概和上面的差不多也是1.5T。那么三者加起来就丛掘枣是3.6T左右,如果想更省一部分,那么3T也就差不多了。
10T的数据量3T的在线备份,差不多了。剩下的有需要离线备份用离线备份,或者带库备份,其他的如果有渗拆办法就备份,是在没办法放弃也可以。虽然都说数据很重要,可是没有备份空间也是巧妇难为无米之炊啊。
I. 现在比较大型的数据库有哪些
oracle数据库,sqlserver数据库,sysbase
mysql数据库,mogongdb
J. 全球最大的数据库是什么
世界上最大的十个数据库:
1.全球气象数据中心: 220千兆网络数据,6个petabytes的其它数据。
2.全美能源研究科技计算中心: 2.8个petabytes (1个petabyte 约等于1千千兆)。
3.AT&T: 323千兆信息。
4.Google: 每天有9千1百万次搜索量。
5.Sprint: 具体数据容量不详,但其拥有2.85万亿条数据库行。
6.ChoicePoint: 250千兆数据。
7.YouTube: 45千兆视频。
8.Amazon: 42千兆数据。
9.中央情报局: (Secret)。
10.美国国会图书馆: 1亿3千万项条目(书籍、图片、地图等),20千兆文本。