DC存储集群

发布时间: 2023-01-01 14:28:06

㈠ HBase存储架构

上图是HBase的存储架构图。

由上图可以知道，客户端是通过Zookeeper找到HMaster，然后再与具体的Hregionserver进行沟通读写数据的。

具体到物理实现，细节包括以下这些：

首先要清楚HBase在hdfs中的存储路径，以及各个目录的作用。在hbase-site.xml 文件中，配置项 <name> hbase.rootdir</name> 默认 “/hbase”，就是hbase在hdfs中的存储根路径。以下是hbase0.96版本的个路径作用。1.0以后的版本请参考这里: https://blog.bcmeng.com/post/hbase-hdfs.html

1、 /hbase/.archive
HBase 在做 Split或者 compact 操作完成之后，会将 HFile 移到.archive 目录中，然后将之前的 hfile 删除掉，该目录由 HMaster 上的一个定时任务定期去清理。

2、 /hbase/.corrupt
存储HBase损坏的日志文件，一般都是为空的。

3、 /hbase/.hbck
HBase 运维过程中偶尔会遇到元数据不一致的情况，这时候会用到提供的 hbck 工具去修复，修复过程中会使用该目录作为临时过度缓冲。

4、 /hbase/logs
HBase 是支持 WAL（Write Ahead Log）的，HBase 会在第一次启动之初会给每一台 RegionServer 在.log 下创建一个目录，若客户端如果开启WAL 模式，会先将数据写入一份到.log 下，当 RegionServer crash 或者目录达到一定大小，会开启 replay 模式，类似 MySQL 的 binlog。

5、 /hbase/oldlogs
当.logs 文件夹中的 HLog 没用之后会 move 到.oldlogs 中，HMaster 会定期去清理。

6、 /hbase/.snapshot
hbase若开启了 snapshot 功能之后，对某一个用户表建立一个 snapshot 之后，snapshot 都存储在该目录下，如对表test 做了一个名为sp_test 的snapshot，就会在/hbase/.snapshot/目录下创建一个sp_test 文件夹，snapshot 之后的所有写入都是记录在这个 snapshot 之上。

7、 /hbase/.tmp
当对表做创建或者删除操作的时候，会将表move 到该 tmp 目录下，然后再去做处理操作。

8、 /hbase/hbase.id
它是一个文件，存储集群唯一的 cluster id 号，是一个 uuid。

9、 /hbase/hbase.version
同样也是一个文件，存储集群的版本号，貌似是加密的，看不到，只能通过web-ui 才能正确显示出来

10、 -ROOT-
该表是一张的HBase表，只是它存储的是.META.表的信息。通过HFile文件的解析脚本 hbase org.apache.hadoop.hbase.io.hfile.HFile -e -p -f 可以查看其存储的内容，如下所示：

以上可以看出，-ROOT-表记录的.META.表的所在机器是dchbase2，与web界面看到的一致：

11、 .META.
通过以上表能找到.META.表的信息，该表也是一张hbase表，通过以上命令，解析其中一个region：

以上可以看出，adt_app_channel表的数据记录在dchbase3这台reginserver上，也与界面一致，如果有多个region，则会在表名后面加上rowkey的范围：

通过以上描述，只要找到-ROOT-表的信息，就能根据rowkey找到对应的数据，那-ROOT-在哪里找呢？从本文一开始的图中可以知道，就是在zookeeper中找的。进入zookeeper命令行界面：

可以看出-ROOT-表存储在 dchbase3 机器中，对应界面如下：

以上就是HBase客户端根据指定的rowkey从zookeeper开始找到对应的数据的过程。

那在Region下HBase是如何存储数据的呢？

以下就具体操作一张表，查询对应的HFile文件，看HBase的数据存储过程。

在HBase创建一张表 test7，并插入一些数据，如下命令：

查看wal日志，通过 hbase org.apache.hadoop.hbase.regionserver.wal.HLog --mp -p 命令可以解析HLog文件，内容如下：

查看HFile文件，内容如下：

由此可见，HFile文件就是存储HBase的KV对，其中Key的各个字段包含了的信息如下：

由于hbase把cf和column都存储在HFile中，所以在设计的时候，这两个字段应该尽量短，以减少存储空间。

但删除一条记录的时候，HBase会怎么操作呢？执行以下命令：

删除了rowkey为200的记录，查看hdfs，原来的HFile并没有改变，而是生成了一个新的HFile，内容如下：

所以在HBase中，删除一条记录并不是修改HFile里面的内容，而是写新的文件，待HBase做合并的时候，把这些文件合并成一个HFile，用时间比较新的文件覆盖旧的文件。HBase这样做的根本原因是，HDFS不支持修改文件。

㈡什么是DC模式DC是什么意思什么是DC模式DC具体是什么意思

1、什么是DC模式DC是什么意思：DC全称为DigitalCinema，即数字电影。

2、数字电影是指在电影的拍摄、后期加工以及发行放映等环节，部分或全部以数字处理技术代替传统光学化学或物理处理技术，用数字化介质代替胶片的电影。相比传统的胶片电影，数字电影的优势主要体现在节约了电影制作费用，革新了制作方式，提高了制作水准。

3、通过高清摄像技术，实现了与高清时代的接轨；数字介质存储，永远保持质量稳定，不会出现任何磨损、老化等现象，更不会出现抖动和闪烁；传送发行不需要洗映胶片，发行成本大大降低，传输过程中不会出现质量损失；而如果使用了卫星同步技术，还可附加如直播重大文体活动、远程教育培训等等，这一点是胶片电影所无法企及的。

㈢什么是DC

在钢琴中间，DC代表重头来一次

㈣数据中心DC、POD、AZ、Tenant、VPC概念理解

DC：(Data Center)数据中心，是一个物理上的概念，指一个物理空间（比如机房）里服务器、网络、存储等设备的集合，实现信息的集中处理、存储、传输、交换和管理。

POD：（Point of Delivery）分发点，为了便于资源的池化，将一个物理上的DC划分成一个或多个物理分区，每个物理分区称为一个POD，所以 POD也是一个物理上的概念。POD是DC的基本部署单元，一台物理设备只能属于一个POD。

AZ：（Available Zone）可用域，是一个逻辑上的概念，故障的隔离域。一个AZ可能包含多个DC，一个DC也可以设置多个AZ。

Tenant：租户，由系统管理员创建和分配，租户是一个VDC（虚拟DC，一个组织可使用的资源的集合，资源包括：计算、存储、网络资源）的实际拥有者和管理者，不同的VDC对应不同的租户。

VPC：（virtual private cloud）虚拟私有云，基于物理网络抽象出来的逻辑的网元，并根据业务编排逻辑网元，从而形成一个虚拟的网络，不同的VPC逻辑上隔离，但共享物理网络，从而实现物理网络资源池化后的共享问题。

㈤ windows server 故障转移集群什么纯软件数据共享

在过去，使用新的服务器操作系统升级Windows故障转移集群是一项很困难的任务。不过微软花了相当多的努力让升级这个过程更简单。在我解释这个过程是如何工作之前，我要先声明，这篇文章仅仅是从操作系统的角度来讨论故障转移集群。对于应用来说可能还需要额外的操作来保证升级成功，同样升级过程中不会涉及硬件的升级，所以如果你需要对硬件进行升级的话，那么整个过程还需要一些额外步骤。

微软支持从Windows Server 2012 R2到Windows Server 2016的阶梯式升级，这种阶梯式的OS升级和阶梯式的补丁安装是类似的。在阶梯式补安装作中，补丁会在集群保持在线的情况逐个被安装。

微软将集群升级的过程设计得很安全。直到你到达升级过程的最后一步之前，你都可以中断你的升级并且将系统还原到初始状态。

对集群和作业进行备份

将Windows Server 2012 R2升级到Windows Server 2016的第一个步是对集群和集群化的作业进行备份。虽然升级的过程已经足够安全，但是也会有很小的机会出现升级过程的失败，如果出错了，你会希望已经做了相关备份。

当备份完成后，选择一个你需要升级的节点，并将在这个节点上运行的所有作业迁移到其他的集群节点中去。一旦这个节点不再承载任何任务了，就可以将这个节点从这个集群中移除出去了。在这个时候，这个节点就成为了一个单独的服务器而不是一个集群节点。

当这个节点从集群中移除后，就可以安装Windows Server 2016了。在微软提前发布的文档中提到过——但目前还没有被确认——安装的过程是不能进行原机扩充的。文档表明了服务器系统的磁盘会被重新格式化，新的操作系统会重新进行安装。当安装结束之后，还需要进行一系列任务来为加入集群做准备。这些任务包括配置网络连接，配置到集群共享存储的连接，安装故障转移特性和安装必要的基础软件，例如备份代理或防病毒软件。

在某种程度上来说，升级是可以撤销的

到了这个时候，这个集群节点应该可以投入使用了。但在生产环境中，你可能还需要安装例如Hyper-V或者SQL Server之类的应用。你会需要用到Add-ClusterNode cmdlet将这个升级后的节点添加到集群中去。这样这个故障转移集群会工作在混合模式，因为这个集群包含了Windows Server 2012 R2节点和Windows Server 2016节点。

㈥ dc服务器是什么意思

dc服务器就是域控制服务器。

DC是Domain Controller的缩写，即域控制器；Domain Controller是一台计算机，实现用户、计算机、目录的统一管理。

域控制器存储着目录数据并管理用户域的交互关系，其中包括用户登录过程、身份验证和目录搜索等。一个域可以有多个域控制器。为了获得高可用性和容错能力，规模较小的域只需两个域控制器，一个实际使用，另一个用于容错性检査；规模较大的域可以使用多个域控制器。

组成

域控制器中包含了这个域的用户账户、密码和属于这个域的电脑等信息构成的数据库。当电脑连入网络时，域控制器首先要鉴别这台电脑是否是属于这个域，用户使用的登录账号是否存在、密码是否正确。如果以上信息不正确，域控制器就拒绝该用户从这台电脑登录。

不能登录，用户就不能访问服务器上有权限保护的资源，只能以对等网用户的方式访问Windows共享的资源，这样就一定程度上保护了网络上的资源。

㈦ Ceph 架构与原理

Ceph 是一个开源项目，它提供软件定义的、统一的存储解决方案。Ceph 是一个具有高性能、高度可伸缩性、可大规模扩展并且无单点故障的分布式存储系统。
Ceph 是软件定义存储解决方案
Ceph 是统一存储解决方案
Ceph 是云存储解决方案

高可用性

高扩展性

特性丰富

Ceph独一无二地统一的系统提供了对象存储、块存储和文件存储功能。Ceph存储集群由几个不同的软件守护进程组成（比较重要的两个是MON和OSD），每个守护进程负责Ceph的一个独特功能并将值添加到相应的组件中。

RADOS是CEPH存储系统的核心,也称为Ceph 存储集群。Ceph的数据访问方法(如RBD,CephFS,RADOSGW，librados)的所有操作都是在RADOS层之上构建的。当Ceph 集群接收到来自客户端的请求时,CRUSH算法首先计算出存储位置,最后将这些对象存储在OSD中,当配置的复制数大于1时,RADOS负责的形式将数据分发到集群内的所有节点,最后将这些对象存储在OSD中。当配置的复制数大于1时,RADOS负责数据的可靠性,它复制对象，创建副本并将它们存储在不同的故障区域中。
RADOS包含两个核心组件: OSD和MON

OSD 是Ceph 存储集群中最重要的一个基础组件，他负责将实际的数据以对象的形式存储在每一个集群节点的物理磁盘中。对于任何读写操作，客户端首先向MON请求集群MAP，然后客户端旧可以直接和OSD进行I/O操作。
一个Ceph 集群包含多个OSD。一个典型的Ceph集群方案会为集群节点上的每个物理磁盘创建一个ODS守护进程,这个是推荐的做法。OSD上的每个对象都有一个主副本和几个辅副本,辅副本分散在其他OSD。一个OSD对于一些对象是主副本，同时对于其他对象可能是辅副本，存放辅副本的OSD主副本OSD控制,如果主副本OSD异常(或者对应的磁盘故障),辅副本OSD可以成为主副本OSD。
OSD是有一个已经存在的Linux文件系统的物理磁盘驱动器和OSD服务组成。Ceph 推荐OSD使用的文件系统是XFS。OSD的所有写都是先存到日志,再到存储.

MON 负责监控整个集群的健康状况。它以守护进程的形式存在,一个MON为每一个组件维护一个独立的MAP,如OSD，MON,PG,CRUSH 和MDS map。这些map 统称为集群的MAP。MON 不为客户端存储和提供数据,它为客户端以及集群内其他节点提供更新集群MAP的服务。客户端和集群内其他节点定期与MON确认自己持有的是否是集群最新的MAP.一个Ceph集群通常包含多个MON节点,但是同一时间只有一个MON。

librados是一个本地的C语言库，通过它应用程序可以直接和RADOS通信，提高性能

Ceph 块存储，简称 RBD，是基于 librados 之上的块存储服务接口。RBD 的驱动程序已经被集成到 Linux 内核（2.6.39 或更高版本）中，也已经被 QEMU/KVM Hypervisor 支持，它们都能够无缝地访问 Ceph 块设备。Linux 内核 RBD（KRBD）通过 librados 映射 Ceph 块设备，然后 RADOS 将 Ceph 块设备的数据对象以分布式的方式存储在集群节点中

RGW，Ceph对象网关，也称做RADOS网关，它是一个代理，可以将HTTP请求转换为RADOS，也可以把RADOS转换为HTTP请求，从而提供restful接口，兼容S3和Swift。Ceph对象网关使用Ceph对象网关守护进程(RGW)与librgw、librados交互。Ceph对象网关支持三类接口：S3、Swift、管理API（通过restful接口管理Ceph集群）。RGW有自己的用户管理体系

Ceph 元数据服务器服务进程，简称 MDS。只有在启用了 Ceph 文件存储（CephFS）的集群中才需要启用 MDS，它负责跟踪文件层次结构，存储和管理 CephFS 的元数据。MDS 的元数据也是以 Obejct 的形式存储在 OSD 上。除此之外，MDS 提供了一个带智能缓存层的共享型连续文件系统，可以大大减少 OSD 读写操作频率。

CephFS在RADOS层之上提供了一个兼容POSIX的文件系统。它使用MDS作为守护进程，负责管理其元数据并将它和其他数据分开。CephFS使用cephfuse模块（FUSE）扩展其在用户空间文件系统方面的支持（就是将CephFS挂载到客户端机器上）。它还允许直接与应用程序交互，使用libcephfs库直接访问RADOS集群。

Ceph管理器软件，可以收集整个集群的所有状态。有仪表板插件

一个对象通常包含绑定在一起的数据和元数据，并且用一个全局唯一的标识符标识。这个唯一的标识符确保在整个存储集群中没有其他对象使用相同的对象ID，保证对象唯一性。基于文件的存储中，文件大小是有限制的，与此不同的是，对象的大小是可以随着大小可变的元数据而变得很大。对象不使用一个目录层次结构或树结构来存储，相反，它存储在一个包含数十亿对象且没有任何复杂性的线性地址空间中。对象可以存储在本地，也可以存放在地理上分开的线性地址空间中，也就是说，在一个连续的存储空间中。任何应用程序都可以基于对象ID通过调用restful API从对象中获取数据。这个URL可以以同样的方式工作在因特网上，一个对象ID作为一个唯一的指针指向对象。这些对象都以复制的方式存储在OSD中，因为能提供高可用性。

对于Ceph集群的一次读写操作，客户端首先联系MON获取一个集群map副本，然后使用对象和池名/ID将数据转换为对象。接着将对象和PG数一起经过散列来生成其在Ceph池中最终存放的那一个PG。然后前面计算好的PG经过CRUSH查找来确定存储或获取数据所需的主OSD的位置。得到准确的OSD ID之后，客户端直接联系这个OSD来存取数据。所有这些计算操作都由客户端来执行，因此它不会影响Ceph集群的性能。一旦数据被写入主OSD，主OSD所在节点将执行CRUSH查找辅助PG和OSD的位置来实现数据复制，进而实现高可用。
简单地说，首先基于池ID将对象名和集群PG数应用散列函数得到一个PG ID，然后，针对这个PG ID执行CRUSH查找得到主OSD和辅助OSD，最后写入数据。

PG是一组对象地逻辑集合，通过复制它到不同的OSD上来提供存储系统的可靠性。根据Ceph池的复制级别，每个PG的数据会被复制并分发到Ceph集群的多个OSD上。可以将PG看成一个逻辑容器，这个容器包含多个对象，同时这个逻辑容器被映射到多个OSD。
计算正确的PG数对一个Ceph存储集群来说是至关重要的一步。PG数计算公式如下

Ceph池是一个用来存储对象的逻辑分区，每个池都包含一定数量的PG，进而实现把一定数量的对象映射到集群内部不同OSD上的目的。每一个池都是交叉分布在集群所有节点上的，这样就能提供足够的弹性。池可以通过创建需要的副本数来保障数据的高可用性。
Ceph的池还支持快照功能，我们可以使用ceph osd pool mksnap命令来给特定的池制作快照。此外，Ceph池还允许我们为对象设置所有者和访问权限。

数据管理始于客户端向Ceph池中写数据。一旦客户端准备写数据到Ceph池中，数据首先写入基于池副本数的主OSD中。主OSD再复制相同的数据到每个辅助OSD中，并等待它们确认写入完成。只要辅助OSD完成数据写入，就会发送一个应答信号给主OSD。最后主OSD再返回一个应答信号给客户端，以确认完成整个写入操作。

㈧什么是集群存储

云存储是在云计算(cloud computing)概念上延伸和发展出来的一个新的概念，是指通过集
群应用、网格技术或分布式文机房集中监控系统件系统等功能，将网络中大量各种不同类
型的存储设备通过应用软件集合起来协同工作，共同对外提供数据存储和业务访问功能的
一个系统。当云计算系统运算和处理的核心是大量数据的存储和管理时，云计算系统中就
需要配置大量的存储设备，那么云计算系统就转变成为一个云存储系统，所以云存储是一
个以数据存储和管理为核心的云计算系统。他们基于虚拟化技术和集群架构，具有强大的
横向扩展能力。云存储设备横向扩展的方式让存储系统具有了无限扩展的能力，它能够实
现控制器与硬盘的同时扩展，也就是性能与容量可以同时实现线性扩展。

集群存储是通过将数据分布到集群中各节点的存储方式，提供单一的使用接口与界面，使
用户可以方便地对所有数据进行统一使用与管理。集群中所有磁盘设备整合到单一的共享
存储池中提供给前端的应用服务器，极大提高了磁盘利用率，可以为非结构化数据提供具
备极高IO带宽和灵活可扩展性的存储解决方案。

阅读全文

热点内容

java返回this 发布：2025-10-20 08:28:16 浏览：845

制作脚本网站发布：2025-10-20 08:17:34 浏览：1110

python中的init方法发布：2025-10-20 08:17:33 浏览：816

图案密码什么意思发布：2025-10-20 08:16:56 浏览：984

怎么清理微信视频缓存发布：2025-10-20 08:12:37 浏览：872

c语言编译器怎么看执行过程发布：2025-10-20 08:00:32 浏览：1221

邮箱如何填写发信服务器发布：2025-10-20 07:45:27 浏览：443

shell脚本入门案例发布：2025-10-20 07:44:45 浏览：325

怎么上传照片浏览上传发布：2025-10-20 07:44:03 浏览：1001

python股票数据获取发布：2025-10-20 07:39:44 浏览：969

DC存储集群

与DC存储集群相关的资讯