数据库列存储

发布时间: 2023-01-07 17:30:36

‘壹’ 列式数据库有哪些

列式数据库是以列相关存储架构进行数据存储的数据库，主要适合与批量数据处理和即席查询。相对应的是行式数据库，数据以行相关的存储体系架构进行空间分配，主要适合与小批量的数据处理，常用于联机事务型数据处理。

不读取无效数据：降低 I/O 开销，同时提高每次 I/O 的效率，从而大大提高查询性能。查询语句只从磁盘上读取所需要的列，其他列的数据是不需要读取的。例如，有两张表，每张表100GB 且有100 列，大多数查询只关注几个列，采用列存储，不需要像行存数据库一样，将整行数据取出，只取出需要的列。磁盘 I/0 是行存储的 1/10或更少，查询响应时间提高 10 倍以上。

高压缩比：压缩比可以达到 5 ~ 20 倍以上，数据占有空间降低到传统数据库的1/10 ，节省了存储设备的开销。

当数据库的大小与数据库服务器内存大小之比达到或超过 2:1 （典型的大型系统配置值）时，列存的 I/O 优势就显得更加明显；

GBase 8a 分析型数据库的独特列存储格式，对每列数据再细分为“数据包”。这样可以达到很高的可扩展性：无论一个表有多大，数据库只操作相关的数据包，性能不会随着数据量的增加而下降。通过以数据包为单位进行 I/O 操作提升数据吞吐量，从而进一步提高I/O效率。

由于采用列存储技术，还可以实现高效的透明压缩。

由于数据按列包存储，每个数据包内都是同构数据，内容相关性很高，这使得GBase 8a 更易于实现压缩，压缩比通常能够达到 1:10 甚至更优。这使得能够同时在磁盘 I/O 和 Cache I/O 上都提升数据库的性能，使 GBase 8a 在某些场景下的运算性能比传统数据库快 100 倍以上。

GBase 8a 允许用户根据需要设置配置文件，选择是否进行压缩。在启用压缩的情况下GBase 8a 根据数据的不同特性以及不同的分布状况，自动采用相应的压缩算法，如：

行程编码（适用于大量连续重复的数据，特别是排序数据）；

基于数据的差值编码（适用于重复率低，但彼此差值较小的数据列）；

基于位置的差值编码（适用于重复率高，但分布比较随机的数据列）。

‘贰’ nosql数据库的四种类型

一般将NoSQL数据库分为四大类：键值(Key-Value)存储数据库、列存储数据库、文档型数据库和图形(Graph)数据库。它们的数据模型、优缺点、典型应用场景。
键值(Key-Value)存储数据库Key指向Value的键值对，通常用hash表来实现查找速度快数据无结构化(通常只被当作字符串或者二进制数据)内容缓存，主要用于处理大量数据的高访问负载，也用于一些日志系统等。
列存储数据库，以列簇式存储，将同一列数据存在一起查找速度快，可扩展性强，更容易进行分布式扩展功能相对局限分布式的文件系统。
文档型数据库，Key-Value对应的键值对，Value为结构化数据，数据结构要求不严格，表结构可变(不需要像关系型数据库一样需预先定义表结构)，查询性能不高，而且缺乏统一的查询语法，Web应用。
图形(Graph)数据库，图结构，利用图结构相关算法(如最短路径寻址，N度关系查找等)，很多时候需要对整个图做计算才能得出需要的信息，而且这种结构不太好做分布式的集群方案，社交网络，推荐系统等。

‘叁’ Sybase数据库的基本原理：（1）、列方式的存储，可以减少IO 那个IO是什么

列存储——有别于传统的关系型数据库，Sybase IQ是按照数据表中的列来存储与访问数据的。基于列来读取数据，即使在数据不断膨胀的情况下，你也只须读出你想要了解的数据，避免了重复的全面扫描，显着提供查询速度，进而提升了性能指数P；同时，由于同一列中的所有数据域有相同的数据类型，因此，每一列都可以以更优化的效率和检索进行压缩，从而降低了占用的资源T。

数据压缩——正是由于数据按列存储，相邻的字段值具有相同的数据类型，所以压缩更容易，通常能得到大于50%的压缩。在海量数据下，随着数据的大幅压缩，所占用的空间等资源成本会显着减少。因此，更大的压缩比，加上大页面，使得Sybase IQ在获得优良查询性能的同时，减少了对存储空间的需求，因此占用的资源T也大大降低了。

丰富的索引——传统的关系型数据库引擎只能一对一地解决问题，在数据爆炸的今天，如此“大海捞针”似的查询会令反应速度非常迟缓。而Sybase IQ针对数据仓库应用有多种不同的索引技术，并且这些技术中的每一个都与数据仓库的查询问题相吻合，从而显着减少给定查询或更新的工作量，加快查询速度，自然带动性能P的提升。

Multiplex可扩展能力——Sybase IQ的Multiplex组件增加了在单一的Sybase IQ环境中支持多个SMP机器节点的功能，显着地减轻了进程与内存负担。因此，在信息飞速增长的商业社会，它允许数据仓库从基础开始扩展，从很小的规模扩展到非常巨大的规模，拥有卓越的可扩展能力，避免了数据爆炸带来的更新和不便。

总之，正是凭借以上引领未来的核心科技，Sybase IQ 在保证数据压缩的目标下，能够同时提高查询性能。因此，不论以S/T(即数据库压缩比)、P/T，还是从整体SPoT公式来看，Sybase IQ 都拥有更高的绿色数据指标，是“绿色数据库”的完美体现。

信息飞速膨胀的时代呼唤有效利用资源的绿色科技。绿色数据库Sybase IQ是对传统商业智能软件的挑战，引领了未来关系型数据库的发展方向，其低成本、高效能的绿色效应必将促进企业健康持久成长，营造和谐持续发展的绿色信息环境。

‘肆’ 列存储实现简单吗

列存储实现简单。

用insert插入数据，数据库默认是列存储，可以用pivot和unpivot来实现行列的转换，或者建立列存储索引。按列存储每个字段的数据聚集存储，在查询只需要少数几个字段的时候，能大大减少读取的数据量，一个字段的数据聚集存储，那就更容易为这种聚集存储设计更好的压缩/解压算法。

优势

磁盘的每个Page仅仅存储来自单列的值，而不是整行的值。因此，压缩算法会更加高效，因为能够作用于同类型的数据。例如，假定我们有一张有3列数据的表，这3列从左往右依次是int、varchar和bool类型，并且该表有100条（行）记录。对于都是int类型的第一列数据，应用压缩算法是很容易的，同时压缩率也会很高。

‘伍’ 列式数据库的举例

下面以GBase 8a分析型数据库为例，描述列存储对数据存储与管理的作用。
面对海量数据分析的 I/O 瓶颈，GBase 8a 把表数据按列的方式存储，其优势体现在以下几个方面。
不读取无效数据：降低 I/O 开销，同时提高每次 I/O 的效率，从而大大提高查询性能。查询语句只从磁盘上读取所需要的列，其他列的数据是不需要读取的。例如，有两张表，每张表100GB 且有100 列，大多数查询只关注几个列，采用列存储，不需要像行存数据库一样，将整行数据取出，只取出需要的列。磁盘 I/0 是行存储的 1/10或更少，查询响应时间提高 10 倍以上。
高压缩比：压缩比可以达到 5 ~ 20 倍以上，数据占有空间降低到传统数据库的1/10 ，节省了存储设备的开销。
当数据库的大小与数据库服务器内存大小之比达到或超过 2:1 （典型的大型系统配置值）时，列存的 I/O 优势就显得更加明显；
GBase 8a 分析型数据库的独特列存储格式，对每列数据再细分为“数据包”。这样可以达到很高的可扩展性：无论一个表有多大，数据库只操作相关的数据包，性能不会随着数据量的增加而下降。通过以数据包为单位进行 I/O 操作提升数据吞吐量，从而进一步提高I/O效率。
由于采用列存储技术，还可以实现高效的透明压缩。
由于数据按列包存储，每个数据包内都是同构数据，内容相关性很高，这使得GBase 8a 更易于实现压缩，压缩比通常能够达到 1:10 甚至更优。这使得能够同时在磁盘 I/O 和 Cache I/O 上都提升数据库的性能，使 GBase 8a 在某些场景下的运算性能比传统数据库快 100 倍以上。
GBase 8a 允许用户根据需要设置配置文件，选择是否进行压缩。在启用压缩的情况下GBase 8a 根据数据的不同特性以及不同的分布状况，自动采用相应的压缩算法，如：
行程编码（适用于大量连续重复的数据，特别是排序数据）；
基于数据的差值编码（适用于重复率低，但彼此差值较小的数据列）；
基于位置的差值编码（适用于重复率高，但分布比较随机的数据列）。

‘陆’ 什么是数据库列存储，原理是怎样的

数据库列存储不同于传统的关系型数据库，其数据在表中是按行存储的，列方式所带来的重要好处之一就是，由于查询中的选择规则是通过列来定义的，因此整个数据库是自动索引化的。

按列存储每个字段的数据聚集存储，在查询只需要少数几个字段的时候，能大大减少读取的数据量，一个字段的数据聚集存储，那就更容易为这种聚集存储设计更好的压缩/解压算法。这张图讲述了传统的行存储和列存储的区别：

‘柒’ 常见的基于列存储的大数据数据库有哪些

目前大数据存储有两种方案可供选择：行存储和列存储。业界对两种存储方案有很多争持，集中焦点是:谁能够更有效地处理海量数据，且兼顾安全、可靠、完整性。从目前发展情况看，关系数据库已经不适应这种巨大的存储量和计算要求，基本是淘汰出局。在已知的几种大数据处理软件中，Hadoop的HBase采用列存储，MongoDB是文档型的行存储，Lexst是二进制型的行存储。在这里，我不讨论这些软件的技术和优缺点，只围绕机械磁盘的物理特质，分析行存储和列存储的存储特点，以及由此产生的一些问题和解决办法。

‘捌’ 常用的数据库有哪几种试着阐述每种数据库的特点和使用范围

关系数据库、非关系型数据库。

1、关系数据库

特点：数据集中控制；减少数据冗余等。

适用范围：对于结构化数据的处理更合适，如学生成绩、地址等，这样的数据一般情况下需要使用结构化的查询。

2、非关系数据库

特点：易扩展；大数据量，高性能；灵活的数据模型等。

使用范围：据模型比较简单；需要灵活性更强的IT系统；对数据库性能要求较高。

(8)数据库列存储扩展阅读：

非关系数据库的分类：

1、列存储数据库

这部分数据库通常是用来应对分布式存储的海量数据。键仍然存在，但是它们的特点是指向了多个列。这些列是由列家族来安排的。如：Cassandra， HBase， Riak。

2、文档型数据库

文档型数据库的灵感是来自于Lotus Notes办公软件的，而且它同第一种键值存储相类似。该类型的数据模型是版本化的文档，半结构化的文档以特定的格式存储，比如JSON。文档型数据库可以看作是键值数据库的升级版，允许之间嵌套键值。而且文档型数据库比键值数据库的查询效率更高。如：CouchDB， MongoDb. 国内也有文档型数据库SequoiaDB，已经开源。

阅读全文

热点内容

java返回this 发布：2025-10-20 08:28:16 浏览：984

制作脚本网站发布：2025-10-20 08:17:34 浏览：1259

python中的init方法发布：2025-10-20 08:17:33 浏览：944

图案密码什么意思发布：2025-10-20 08:16:56 浏览：1125

怎么清理微信视频缓存发布：2025-10-20 08:12:37 浏览：994

c语言编译器怎么看执行过程发布：2025-10-20 08:00:32 浏览：1348

邮箱如何填写发信服务器发布：2025-10-20 07:45:27 浏览：560

shell脚本入门案例发布：2025-10-20 07:44:45 浏览：455

怎么上传照片浏览上传发布：2025-10-20 07:44:03 浏览：1126

python股票数据获取发布：2025-10-20 07:39:44 浏览：1114

数据库列存储

与数据库列存储相关的资讯