hadoop存储数据流程

发布时间: 2023-03-03 09:45:27

1. HDFS写数据流程

1）客户端向namenode请求上传文件，namenode检查目标文件是否已存在，父目录是否存在。

2）namenode返回是否可以上传。

3）客户端请求第一个 block上传到哪几个datanode服务器上。

4）namenode返回3个datanode节点，分别为dn1、dn2、dn3。

5）客户端请求dn1上传数据，dn1收到请求会继续调用dn2，然后dn2调用dn3，将这个通信管道建立完成

6）dn1、dn2、dn3逐级应答客户端（ack响应）

7）客户端开始往dn1上传第一个block（先从磁盘读取数据放到一个本地内存缓存），以packet为单位，dn1收到一个packet就会传给dn2，dn2传给dn3；dn1每传一个packet会放入一个应答队列等待应答

8）当一个block传输完成之后，客户端再次请求namenode上传第二个block的服务器。（重复执行3-7步）

1.客户端通过调用DistributedFileSystem的create方法创建新文件。

2.DistributedFileSystem通过RPC调用namenode去创建一个没有blocks关联的新文件，创建前， namenode会做各种校验，比如文件是否存在，客户端有无权限去创建等。如果校验通过， namenode就会记录下新文件，否则就会抛出IO异常。

3.前两步结束后，会返回FSDataOutputStream的对象，与读文件的时候相似， FSDataOutputStream被封装成DFSOutputStream。DFSOutputStream可以协调namenode和 datanode。客户端开始写数据到DFSOutputStream，DFSOutputStream会把数据切成一个个小的packet，然后排成队列data quene（数据队列）。

4.DataStreamer会去处理接受data quene，它先询问namenode这个新的block最适合存储的在哪几个datanode里（比如重复数是3，那么就找到3个最适合的 datanode），把他们排成一个pipeline。DataStreamer把packet按队列输出到管道的第一个datanode中，第一个 datanode又把packet输出到第二个datanode中，以此类推。

5.DFSOutputStream还有一个对列叫ack quene，也是由packet组成，等待datanode的收到响应，当pipeline中的所有datanode都表示已经收到的时候，这时ack quene才会把对应的packet包移除掉。

    如果在写的过程中某个datanode发生错误，会采取以下几步：

        1)pipeline被关闭掉；

        2)为了防止防止丢包ack quene里的packet会同步到data quene里；

        3)把产生错误的datanode上当前在写但未完成的block删掉；

        4)block剩下的部分被写到剩下的两个正常的datanode中；

        5)namenode找到另外的datanode去创建这个块的复制。当然，这些操作对客户端来说是无感知的。

6.客户端完成写数据后调用close方法关闭写入流。

7.DataStreamer把剩余得包都刷到pipeline里，然后等待ack信息，收到最后一个ack后，通知datanode把文件标视为已完成。

注意：客户端执行write操作后，写完的block才是可见的(注:和下面的一致性所对应)，正在写的block对客户端

#### 网络拓扑

在本地网络中，两个节点被称为“彼此近邻”是什么意思？在海量数据处理中，其主要限制因素是节点之间数据的传输速率——带宽很稀缺。这里的想法是将两个节点间的带宽作为距离的衡量标准。

节点距离：两个节点到达最近的共同祖先的距离总和。

例如，假设有数据中心d1机架r1中的节点n1。该节点可以表示为/d1/r1/n1。利用这种标记，这里给出四种距离描述。

Distance(/d1/r1/n1, /d1/r1/n1)=0（同一节点上的进程）

Distance(/d1/r1/n1, /d1/r1/n2)=2（同一机架上的不同节点）

Distance(/d1/r1/n1, /d1/r3/n2)=4（同一数据中心不同机架上的节点）

Distance(/d1/r1/n1, /d2/r4/n2)=6（不同数据中心的节点）

#### 机架感知

- 官方ip地址：

http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-common/RackAwareness.html

http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html#Data_Replication

- 低版本Hadoop副本节点选择

第一个副本在client所处的节点上。如果客户端在集群外，随机选一个。

第二个副本和第一个副本位于不相同机架的随机节点上。

第三个副本和第二个副本位于相同机架，节点随机。

- 高副本节点选择

第一个副本在client所处的节点上。如果客户端在集群外，随机选一个。

第二个副本和第一个副本位于相同机架，随机节点。

第三个副本位于不同机架，随机节点。

2. hadoop存储方式

传统化集中式存储存在已有一段时间。但大数据并非真的适合集中式存储架构。Hadoop设计用于将计算更接近数据节点，同时采用了HDFS文件系统的大规模横向扩展功能。虽然，通常解决Hadoop管理自身数据低效性的方案是将Hadoop数据存储在SAN上。但这也造成了它自身性能与规模的瓶颈。现在，如果你把所有的数据都通过集中式SAN处理器进行处理，与Hadoop的分布式和并行化特性相悖。你要么针对不同的数据节点管理多个SAN，要么将所有的数据节点都集中到一个SAN。但Hadoop是一个分布式应用，就应该运行在分布式存储上，这样存储就保留了与Hadoop本身同样的灵活性，不过它也要求拥抱一个软件定义存储方案，并在商用服务器上运行，这相比瓶颈化的Hadoop自然更为高效。大数据培训这么火的原因有很多。注意不要混淆超融合与分布式。某些超融合方案是分布式存储，但通常这个术语意味着你的应用和存储都保存在同一计算节点上。这是在试图解决数据本地化的问题，但它会造成太多资源争用。这个Hadoop应用和存储平台会争用相同的内存和CPU。Hadoop运行在专有应用层，分布式存储运行在专有存储层这样会更好。之后，利用缓存和分层来解决数据本地化并补偿网络性能损失。

3. Hadoop分布式存储

为了降低整体的带宽消耗和读取延时，HDFS会尽量让读取程序读取离它最近的副本。如果在读取程序的同一个机架上有一个副本，那么就读取该副本。如果一个HDFS集群跨越多个数据中心，那么客户端也将首先读本地数据中心的副本

Namenode启动后会进入一个称为安全模式的特殊状态。处于安全模式的Namenode是不会进行数据块的复制的。Namenode从所有的 Datanode接收心跳信号和块状态报告。块状态报告包括了某个Datanode所有的数据块列表。每个数据块都有一个指定的最小副本数。当Namenode检测确认某个数据块的副本数目达到这个最小值，那么该数据块就会被认为是副本安全(safely replicated)的；在一定百分比（这个参数可配置）的数据块被Namenode检测确认是安全之后（加上一个额外的30秒等待时间），Namenode将退出安全模式状态。接下来它会确定还有哪些数据块的副本没有达到指定数目，并将这些数据块复制到其他Datanode上

所有的HDFS通讯协议都是建立在TCP/IP协议之上。客户端通过一个可配置的TCP端口连接到Namenode，通过ClientProtocol协议与Namenode交互。而Datanode使用DatanodeProtocol协议与Namenode交互。一个远程过程调用(RPC)模型被抽象出来封装ClientProtocol和Datanodeprotocol协议。在设计上，Namenode不会主动发起RPC，而是响应来自客户端或 Datanode 的RPC请求

4. Hadoop到底是干什么用的

用途：将单机的工作任务进行分拆，变成协同工作的集群。用以解决日益增加的文件存储量和数据量瓶颈。

通俗应用解释：

比如计算一个100M的文本文件中的单词的个数，这个文本文件有若干行，每行有若干个单词，每行的单词与单词之间都是以空格键分开的。对于处理这种100M量级数据的计算任务，把这个100M的文件拷贝到自己的电脑上，然后写个计算程序就能完成计算。

关键技术：

HDFS（Hadoop Distributed File System）：

既可以是Hadoop 集群的一部分，也可以是一个独立的分布式文件系统，是开源免费的大数据处理文件存储系统。

HDFS是Master和Slave的主从结构（是一种概念模型，将设备分为主设备和从设备，主设备负责分配工作并整合结果，或作为指令的来源；从设备负责完成工作，一般只能和主设备通信）。主要由Name-Node、Secondary NameNode、DataNode构成。

Name-Node：分布式文件系统中的管理者，主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等

Secondary NameNode：辅助 NameNode，分担其工作，紧急情况可以辅助恢复

DataNode：Slave节点，实际存储数据、执行数据块的读写并汇报存储信息给NameNode

HDFS客户端的存储流程：当客户需要写数据时，先在NameNode 上创建文件结构并确定数据块副本将要写道哪几个 datanode ，然后将多个代写 DataNode 组成一个写数据管道，保证写入过程完整统一写入。

读取数据时则先通过 NameNode 找到存储数据块副本的所有 DataNode ，根据与读取客户端距离排序数据块，然后取最近的。

5. Hadoop：是什么，如何工作，可以用来做什么

Hadoop主要是分布式计算和存储的框架，所以Hadoop工作过程主要依赖于HDFS(Hadoop Distributed File System)分布式存储系统和Maprece分布式计算框架。

分布式存储系统HDFS中工作主要是一个主节点namenode(master)（hadoop1.x只要一个namenode节点，2.x中可以有多个节点）和若干个从节点Datanode(数据节点)相互配合进行工作,HDFS主要是存储Hadoop中的大量的数据，namenode节点主要负责的是：
1、接收client用户的操作请求，这种用户主要指的是开发工程师的java代码或者是命令客户端操作。
2、维护文件系统的目录结构，主要就是大量数据的关系以及位置信息等。
3、管理文件系统与block的关系，Hadoop中大量的数据为了方便存储和管理主要是以block块（64M）的形式储存。一个文件被分成大量的block块存储之后，block块之间都是有顺序关系的，这个文件与block之间的关系以及block属于哪个datanode都是有namenode来管理。
Datanode的主要职责是：
1、存储文件。
2、将数据分成大量的block块。
3、为保证数据的安全，对数据进行备份，一般备份3份。当其中的一份出现问题时，将由其他的备份来对数据进行恢复。
MapRece主要也是一个主节点JOPtracker和testtracker组成，主要是负责hadoop中的数据处理过程中的计算问题。
joptracker主要负责接收客户端传来的任务，并且把计算任务交给很多testtracker工作，同时joptracker会不断的监控testtracker的执行情况。
testtracker主要是执行joptracker交给它的任务具体计算，例如给求大量数据的最大值，每个testtracker会计算出自己负责的数据中的最大值，然后交给joptracker。

Hadoop的主要两个框架组合成了分布式的存储和计算，使得hadoop可以很快的处理大量的数据。

6. 1g的文件在hadoop是怎么存储的

hdfs是按块进行存储的。1GB文件会划分成若干块（默认64MB一个块，也可以自己配置），然后分配到不同的存储节点上存储。
nameserver会记录哪些块存储在哪个节点上，等读的时候需要访问nameserver，获取到不同的数据节点，然后再访问数据即可。

7. hadoop分布式部署（转载）--贼靠谱

原文地址：https://blog.csdn.net/sjmz30071360/article/details/79889055

1. 集群搭建形式

Hadoop环境搭建分为三种形式：单机模式、伪分布式模式、完全分布模式

单机模式—— 在一台单机上运行，没有分布式文件系统，而是直接读写本地操作系统的文件系统。

伪分布式—— 也是在一台单机上运行，但不同的是Java进程模仿分布式运行中的各类节点。即一台机器上，既当NameNode，又当DataNode，或者说既是JobTracker又是TaskTracker。没有所谓的在多台机器上进行真正的分布式计算，故称为“伪分布式”。

完全分布式—— 真正的分布式，由3个及以上的实体机或者虚拟机组成的机群。一个Hadoop集群环境中，NameNode，SecondaryName和DataNode是需要分配在不同的节点上，也就需要三台服务器。

前两种模式一般用在开发或测试环境下，生产环境下都是搭建完全分布式模式。

从分布式存储的角度来说，集群中的节点由一个NameNode和若干个DataNode组成，另有一个SecondaryNameNode作为NameNode的备份。

从分布式应用的角度来说，集群中的节点由一个JobTracker和若干个TaskTracker组成。JobTracker负责任务的调度，TaskTracker负责并行执行任务。TaskTracker必须运行在DataNode上，这样便于数据的本地计算。JobTracker和NameNode则无须在同一台机器上。

2. 环境

操作系统：CentOS7（红帽开源版）

机器：虚拟机3台，（master 192.168.0.104, slave1 192.168.0.102, slave2 192.168.0.101）

JDK：1.8（jdk-8u162-linux-x64.tar）

Hadoop：2.9.0（http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.9.0/hadoop-2.9.0.tar.gz）

3. 搭建步骤

3.1 每台机器安装&配置JDK（1台做好后，克隆出其它机器）

1) 创建目录 mkdir /usr/java

2) 上传jdk安装包到 /usr/java/

3) 解压 tar -xvf jdk-8u162-linux-x64.tar

4) 追加环境变量 vi /etc/profile

5) 使环境变量生效 source /etc/profile

6) 检测jdk正确安装 java -version

3.2 修改每台机器主机名(hostname)

hostnamectl set-hostname master （立即生效）

hostnamectl set-hostname slave1 （立即生效）

hostnamectl set-hostname slave2 （立即生效）

确认修改

3.3 修改每台机器/etc/hosts文件

vi /etc/hosts

修改其中1台，然后scp到其它机器

scp 文件名远程主机用户名@远程主机名或ip:存放路径

scp hosts [email protected]:/etc/

scp hosts [email protected]:/etc/

修改完之后，互ping其它机器，能互ping则说明修改OK

ping -c 3 slave1 （※ 3表示发送 3 个数据包）

3.4 配置ssh，实现无密码登录

无密码登录，效果也就是在master上，通过ssh slave1或者ssh slave2就可以登录对方机器，而不用输入密码。

1）每台机器执行ssh-keygen -t rsa，接下来一路回车即可

执行ssh-keygen -t rsa主要是生成密钥和密钥的存放路径

我们用的root用户，公钥私钥都会保存在~/.ssh下

2）在master上将公钥放到authorized_keys里，命令：cat id_rsa.pub > authorized_keys

3）将master上的authorized_keys放到其它机器上

scp authorized_keys root@slave1:~/.ssh/

scp authorized_keys root@slave2:~/.ssh/

4）测试是否成功

3.5 上传&配置hadoop（配置完master后，将/usr/hadoop/整个目录内容到其它机器）

1）创建目录 mkdir /usr/hadoop

2）上传hadoop安装包hadoop-2.9.0.tar.gz到 /usr/hadoop/

3）解压 tar -xvf hadoop-2.9.0.tar.gz

4）追加环境变量 vi /etc/profile（其它机器也要相应配置一次hadoop环境变量）

5）使环境变量生效 source /etc/profile

6）确认环境变量配置OK

7）创建HDFS存储目录

cd /usr/hadoop

mkdir hdfs

cd hdfs

mkdir name data tmp

/usr/hadoop/hdfs/name --存储namenode文件

/usr/hadoop/hdfs/data --存储数据

/usr/hadoop/hdfs/tmp --存储临时文件

8）修改/usr/hadoop/hadoop-2.9.0/etc/hadoop/hadoop-env.sh文件，设置JAVA_HOME为实际路径

否则启动集群时，会提示路径找不到

9）修改/usr/hadoop/hadoop-2.9.0/etc/hadoop/yarn-env.sh文件，设置JAVA_HOME为实际路径

10）配置/usr/hadoop/hadoop-2.9.0/etc/hadoop/core-site.xml

增加hadoop.tmp.dir 和 fs.default.name

11）配置/usr/hadoop/hadoop-2.9.0/etc/hadoop/hdfs-site.xml

dfs.replication：默认值3

dfs.permissions：默认值为true，设置为true有时候会遇到数据因为权限访问不了；设置为false可以不要检查权限就生成dfs上的文件

12）配置/usr/hadoop/hadoop-2.9.0/etc/hadoop/mapred-site.xml

cd /usr/hadoop/hadoop-2.9.0/etc/hadoop

cp mapred-site.xml.template mapred-site.xml

maprece.framework.name：指定maprece运行在yarn平台，默认为local

13）配置/usr/hadoop/hadoop-2.9.0/etc/hadoop/yarn-site.xml

yarn.resourcemanager.hostname：指定yarn的resourcemanager的地址

yarn.nodemanager.aux-services：recer获取数据的方式

yarn.nodemanager.vmem-check-enabled：意思是忽略虚拟内存的检查，如果安装在虚拟机上，这个配置很有用，配上去之后后续操作不容易出问题。如果是在实体机上，并且内存够多，可以将这个配置去掉

14）配置/usr/hadoop/hadoop-2.9.0/etc/hadoop/slaves文件，将里面的localhost删除，配置后内容如下：

15）整个/usr/hadoop/目录到其它机器

scp -r hadoop root@slave1:/usr/

scp -r hadoop root@slave2:/usr/

3.6 启动Hadoop

1）启动之前需要格式化一下。因为master是namenode，slave1和slave2都是datanode，所以在master上运行

hadoop namenode -format

格式化成功后，可以看到在/usr/hadoop/hdfs/name目录下多了一个current目录，而且该目录下有一系列文件，如下：

2）执行启动（namenode只能在master上启动，因为配置在master上；datanode每个节点上都可以启动）

执行 start-all.sh

master上执行jps，会看到NameNode, SecondaryNameNode, ResourceManager

其它节点上执行jps，会看到DataNode, NodeManager

3）在wins上打开网页，查看HDFS管理页面 http://192.168.0.104:50070查看，提示无法访问

在master上，执行以下命令关闭防火墙，即可访问（为了能够正常访问node节点，最好把其它机器的防火墙也stop了）

systemctl stop firewalld.service

HDFS管理首页

HDFS Datenodes页

访问Yarn管理页： http://192.168.0.104:8088

4）通过主机名也可以访问的设置

win7为例，需要将以下信息追加到C:\Windows\System32\drivers\etc\hosts文件中

192.168.0.104 master

192.168.0.102 slave1

192.168.0.101 slave2

Over！！！搭建成功！！！

4. 运行实例

cd /usr/hadoop/hadoop-2.9.0/share/hadoop/maprece

hadoop jar hadoop-maprece-examples-2.9.0.jar pi 5 10

。。。。。。

=====================================================

如果不关防火墙，子节点可能出现，输入jps后只有jps一个进程，或者是缺进程的情况，关闭防火墙就好了。

阅读全文

热点内容

随机启动脚本发布：2025-07-05 16:10:30 浏览：535

微博数据库设计发布：2025-07-05 15:30:55 浏览：32

linux485 发布：2025-07-05 14:38:28 浏览：310

php用的软件发布：2025-07-05 14:06:22 浏览：760

没有权限访问计算机发布：2025-07-05 13:29:11 浏览：437

javaweb开发教程视频教程发布：2025-07-05 13:24:41 浏览：734

康师傅控流脚本破解发布：2025-07-05 13:17:27 浏览：249

java的开发流程发布：2025-07-05 12:45:11 浏览：696

怎么看内存卡配置发布：2025-07-05 12:29:19 浏览：288

访问学者英文个人简历发布：2025-07-05 12:29:17 浏览：837

hadoop存储数据流程

与hadoop存储数据流程相关的资讯