hadoop存儲數據流程

發布時間: 2023-03-03 09:45:27

1. HDFS寫數據流程

1）客戶端向namenode請求上傳文件，namenode檢查目標文件是否已存在，父目錄是否存在。

2）namenode返回是否可以上傳。

3）客戶端請求第一個 block上傳到哪幾個datanode伺服器上。

4）namenode返回3個datanode節點，分別為dn1、dn2、dn3。

5）客戶端請求dn1上傳數據，dn1收到請求會繼續調用dn2，然後dn2調用dn3，將這個通信管道建立完成

6）dn1、dn2、dn3逐級應答客戶端（ack響應）

7）客戶端開始往dn1上傳第一個block（先從磁碟讀取數據放到一個本地內存緩存），以packet為單位，dn1收到一個packet就會傳給dn2，dn2傳給dn3；dn1每傳一個packet會放入一個應答隊列等待應答

8）當一個block傳輸完成之後，客戶端再次請求namenode上傳第二個block的伺服器。（重復執行3-7步）

1.客戶端通過調用DistributedFileSystem的create方法創建新文件。

2.DistributedFileSystem通過RPC調用namenode去創建一個沒有blocks關聯的新文件，創建前， namenode會做各種校驗，比如文件是否存在，客戶端有無許可權去創建等。如果校驗通過， namenode就會記錄下新文件，否則就會拋出IO異常。

3.前兩步結束後，會返回FSDataOutputStream的對象，與讀文件的時候相似， FSDataOutputStream被封裝成DFSOutputStream。DFSOutputStream可以協調namenode和 datanode。客戶端開始寫數據到DFSOutputStream，DFSOutputStream會把數據切成一個個小的packet，然後排成隊列data quene（數據隊列）。

4.DataStreamer會去處理接受data quene，它先詢問namenode這個新的block最適合存儲的在哪幾個datanode里（比如重復數是3，那麼就找到3個最適合的 datanode），把他們排成一個pipeline。DataStreamer把packet按隊列輸出到管道的第一個datanode中，第一個 datanode又把packet輸出到第二個datanode中，以此類推。

5.DFSOutputStream還有一個對列叫ack quene，也是由packet組成，等待datanode的收到響應，當pipeline中的所有datanode都表示已經收到的時候，這時ack quene才會把對應的packet包移除掉。

    如果在寫的過程中某個datanode發生錯誤，會採取以下幾步：

        1)pipeline被關閉掉；

        2)為了防止防止丟包ack quene里的packet會同步到data quene里；

        3)把產生錯誤的datanode上當前在寫但未完成的block刪掉；

        4)block剩下的部分被寫到剩下的兩個正常的datanode中；

        5)namenode找到另外的datanode去創建這個塊的復制。當然，這些操作對客戶端來說是無感知的。

6.客戶端完成寫數據後調用close方法關閉寫入流。

7.DataStreamer把剩餘得包都刷到pipeline里，然後等待ack信息，收到最後一個ack後，通知datanode把文件標視為已完成。

注意：客戶端執行write操作後，寫完的block才是可見的(注:和下面的一致性所對應)，正在寫的block對客戶端

#### 網路拓撲

在本地網路中，兩個節點被稱為「彼此近鄰」是什麼意思？在海量數據處理中，其主要限制因素是節點之間數據的傳輸速率——帶寬很稀缺。這里的想法是將兩個節點間的帶寬作為距離的衡量標准。

節點距離：兩個節點到達最近的共同祖先的距離總和。

例如，假設有數據中心d1機架r1中的節點n1。該節點可以表示為/d1/r1/n1。利用這種標記，這里給出四種距離描述。

Distance(/d1/r1/n1, /d1/r1/n1)=0（同一節點上的進程）

Distance(/d1/r1/n1, /d1/r1/n2)=2（同一機架上的不同節點）

Distance(/d1/r1/n1, /d1/r3/n2)=4（同一數據中心不同機架上的節點）

Distance(/d1/r1/n1, /d2/r4/n2)=6（不同數據中心的節點）

#### 機架感知

- 官方ip地址：

http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-common/RackAwareness.html

http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html#Data_Replication

- 低版本Hadoop副本節點選擇

第一個副本在client所處的節點上。如果客戶端在集群外，隨機選一個。

第二個副本和第一個副本位於不相同機架的隨機節點上。

第三個副本和第二個副本位於相同機架，節點隨機。

- 高副本節點選擇

第一個副本在client所處的節點上。如果客戶端在集群外，隨機選一個。

第二個副本和第一個副本位於相同機架，隨機節點。

第三個副本位於不同機架，隨機節點。

2. hadoop存儲方式

傳統化集中式存儲存在已有一段時間。但大數據並非真的適合集中式存儲架構。Hadoop設計用於將計算更接近數據節點，同時採用了HDFS文件系統的大規模橫向擴展功能。雖然，通常解決Hadoop管理自身數據低效性的方案是將Hadoop數據存儲在SAN上。但這也造成了它自身性能與規模的瓶頸。現在，如果你把所有的數據都通過集中式SAN處理器進行處理，與Hadoop的分布式和並行化特性相悖。你要麼針對不同的數據節點管理多個SAN，要麼將所有的數據節點都集中到一個SAN。但Hadoop是一個分布式應用，就應該運行在分布式存儲上，這樣存儲就保留了與Hadoop本身同樣的靈活性，不過它也要求擁抱一個軟體定義存儲方案，並在商用伺服器上運行，這相比瓶頸化的Hadoop自然更為高效。大數據培訓這么火的原因有很多。注意不要混淆超融合與分布式。某些超融合方案是分布式存儲，但通常這個術語意味著你的應用和存儲都保存在同一計算節點上。這是在試圖解決數據本地化的問題，但它會造成太多資源爭用。這個Hadoop應用和存儲平台會爭用相同的內存和CPU。Hadoop運行在專有應用層，分布式存儲運行在專有存儲層這樣會更好。之後，利用緩存和分層來解決數據本地化並補償網路性能損失。

3. Hadoop分布式存儲

為了降低整體的帶寬消耗和讀取延時，HDFS會盡量讓讀取程序讀取離它最近的副本。如果在讀取程序的同一個機架上有一個副本，那麼就讀取該副本。如果一個HDFS集群跨越多個數據中心，那麼客戶端也將首先讀本地數據中心的副本

Namenode啟動後會進入一個稱為安全模式的特殊狀態。處於安全模式的Namenode是不會進行數據塊的復制的。Namenode從所有的 Datanode接收心跳信號和塊狀態報告。塊狀態報告包括了某個Datanode所有的數據塊列表。每個數據塊都有一個指定的最小副本數。當Namenode檢測確認某個數據塊的副本數目達到這個最小值，那麼該數據塊就會被認為是副本安全(safely replicated)的；在一定百分比（這個參數可配置）的數據塊被Namenode檢測確認是安全之後（加上一個額外的30秒等待時間），Namenode將退出安全模式狀態。接下來它會確定還有哪些數據塊的副本沒有達到指定數目，並將這些數據塊復制到其他Datanode上

所有的HDFS通訊協議都是建立在TCP/IP協議之上。客戶端通過一個可配置的TCP埠連接到Namenode，通過ClientProtocol協議與Namenode交互。而Datanode使用DatanodeProtocol協議與Namenode交互。一個遠程過程調用(RPC)模型被抽象出來封裝ClientProtocol和Datanodeprotocol協議。在設計上，Namenode不會主動發起RPC，而是響應來自客戶端或 Datanode 的RPC請求

4. Hadoop到底是干什麼用的

用途：將單機的工作任務進行分拆，變成協同工作的集群。用以解決日益增加的文件存儲量和數據量瓶頸。

通俗應用解釋：

比如計算一個100M的文本文件中的單詞的個數，這個文本文件有若干行，每行有若干個單詞，每行的單詞與單詞之間都是以空格鍵分開的。對於處理這種100M量級數據的計算任務，把這個100M的文件拷貝到自己的電腦上，然後寫個計算程序就能完成計算。

關鍵技術：

HDFS（Hadoop Distributed File System）：

既可以是Hadoop 集群的一部分，也可以是一個獨立的分布式文件系統，是開源免費的大數據處理文件存儲系統。

HDFS是Master和Slave的主從結構（是一種概念模型，將設備分為主設備和從設備，主設備負責分配工作並整合結果，或作為指令的來源；從設備負責完成工作，一般只能和主設備通信）。主要由Name-Node、Secondary NameNode、DataNode構成。

Name-Node：分布式文件系統中的管理者，主要負責管理文件系統的命名空間、集群配置信息和存儲塊的復制等

Secondary NameNode：輔助 NameNode，分擔其工作，緊急情況可以輔助恢復

DataNode：Slave節點，實際存儲數據、執行數據塊的讀寫並匯報存儲信息給NameNode

HDFS客戶端的存儲流程：當客戶需要寫數據時，先在NameNode 上創建文件結構並確定數據塊副本將要寫道哪幾個 datanode ，然後將多個代寫 DataNode 組成一個寫數據管道，保證寫入過程完整統一寫入。

讀取數據時則先通過 NameNode 找到存儲數據塊副本的所有 DataNode ，根據與讀取客戶端距離排序數據塊，然後取最近的。

5. Hadoop：是什麼，如何工作，可以用來做什麼

Hadoop主要是分布式計算和存儲的框架，所以Hadoop工作過程主要依賴於HDFS(Hadoop Distributed File System)分布式存儲系統和Maprece分布式計算框架。

分布式存儲系統HDFS中工作主要是一個主節點namenode(master)（hadoop1.x只要一個namenode節點，2.x中可以有多個節點）和若干個從節點Datanode(數據節點)相互配合進行工作,HDFS主要是存儲Hadoop中的大量的數據，namenode節點主要負責的是：
1、接收client用戶的操作請求，這種用戶主要指的是開發工程師的java代碼或者是命令客戶端操作。
2、維護文件系統的目錄結構，主要就是大量數據的關系以及位置信息等。
3、管理文件系統與block的關系，Hadoop中大量的數據為了方便存儲和管理主要是以block塊（64M）的形式儲存。一個文件被分成大量的block塊存儲之後，block塊之間都是有順序關系的，這個文件與block之間的關系以及block屬於哪個datanode都是有namenode來管理。
Datanode的主要職責是：
1、存儲文件。
2、將數據分成大量的block塊。
3、為保證數據的安全，對數據進行備份，一般備份3份。當其中的一份出現問題時，將由其他的備份來對數據進行恢復。
MapRece主要也是一個主節點JOPtracker和testtracker組成，主要是負責hadoop中的數據處理過程中的計算問題。
joptracker主要負責接收客戶端傳來的任務，並且把計算任務交給很多testtracker工作，同時joptracker會不斷的監控testtracker的執行情況。
testtracker主要是執行joptracker交給它的任務具體計算，例如給求大量數據的最大值，每個testtracker會計算出自己負責的數據中的最大值，然後交給joptracker。

Hadoop的主要兩個框架組合成了分布式的存儲和計算，使得hadoop可以很快的處理大量的數據。

6. 1g的文件在hadoop是怎麼存儲的

hdfs是按塊進行存儲的。1GB文件會劃分成若干塊（默認64MB一個塊，也可以自己配置），然後分配到不同的存儲節點上存儲。
nameserver會記錄哪些塊存儲在哪個節點上，等讀的時候需要訪問nameserver，獲取到不同的數據節點，然後再訪問數據即可。

7. hadoop分布式部署（轉載）--賊靠譜

原文地址：https://blog.csdn.net/sjmz30071360/article/details/79889055

1. 集群搭建形式

Hadoop環境搭建分為三種形式：單機模式、偽分布式模式、完全分布模式

單機模式—— 在一台單機上運行，沒有分布式文件系統，而是直接讀寫本地操作系統的文件系統。

偽分布式—— 也是在一台單機上運行，但不同的是Java進程模仿分布式運行中的各類節點。即一台機器上，既當NameNode，又當DataNode，或者說既是JobTracker又是TaskTracker。沒有所謂的在多台機器上進行真正的分布式計算，故稱為「偽分布式」。

完全分布式—— 真正的分布式，由3個及以上的實體機或者虛擬機組成的機群。一個Hadoop集群環境中，NameNode，SecondaryName和DataNode是需要分配在不同的節點上，也就需要三台伺服器。

前兩種模式一般用在開發或測試環境下，生產環境下都是搭建完全分布式模式。

從分布式存儲的角度來說，集群中的節點由一個NameNode和若干個DataNode組成，另有一個SecondaryNameNode作為NameNode的備份。

從分布式應用的角度來說，集群中的節點由一個JobTracker和若干個TaskTracker組成。JobTracker負責任務的調度，TaskTracker負責並行執行任務。TaskTracker必須運行在DataNode上，這樣便於數據的本地計算。JobTracker和NameNode則無須在同一台機器上。

2. 環境

操作系統：CentOS7（紅帽開源版）

機器：虛擬機3台，（master 192.168.0.104, slave1 192.168.0.102, slave2 192.168.0.101）

JDK：1.8（jdk-8u162-linux-x64.tar）

Hadoop：2.9.0（http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.9.0/hadoop-2.9.0.tar.gz）

3. 搭建步驟

3.1 每台機器安裝&配置JDK（1台做好後，克隆出其它機器）

1) 創建目錄 mkdir /usr/java

2) 上傳jdk安裝包到 /usr/java/

3) 解壓 tar -xvf jdk-8u162-linux-x64.tar

4) 追加環境變數 vi /etc/profile

5) 使環境變數生效 source /etc/profile

6) 檢測jdk正確安裝 java -version

3.2 修改每台機器主機名(hostname)

hostnamectl set-hostname master （立即生效）

hostnamectl set-hostname slave1 （立即生效）

hostnamectl set-hostname slave2 （立即生效）

確認修改

3.3 修改每台機器/etc/hosts文件

vi /etc/hosts

修改其中1台，然後scp到其它機器

scp 文件名遠程主機用戶名@遠程主機名或ip:存放路徑

scp hosts [email protected]:/etc/

scp hosts [email protected]:/etc/

修改完之後，互ping其它機器，能互ping則說明修改OK

ping -c 3 slave1 （※ 3表示發送 3 個數據包）

3.4 配置ssh，實現無密碼登錄

無密碼登錄，效果也就是在master上，通過ssh slave1或者ssh slave2就可以登錄對方機器，而不用輸入密碼。

1）每台機器執行ssh-keygen -t rsa，接下來一路回車即可

執行ssh-keygen -t rsa主要是生成密鑰和密鑰的存放路徑

我們用的root用戶，公鑰私鑰都會保存在~/.ssh下

2）在master上將公鑰放到authorized_keys里，命令：cat id_rsa.pub > authorized_keys

3）將master上的authorized_keys放到其它機器上

scp authorized_keys root@slave1:~/.ssh/

scp authorized_keys root@slave2:~/.ssh/

4）測試是否成功

3.5 上傳&配置hadoop（配置完master後，將/usr/hadoop/整個目錄內容到其它機器）

1）創建目錄 mkdir /usr/hadoop

2）上傳hadoop安裝包hadoop-2.9.0.tar.gz到 /usr/hadoop/

3）解壓 tar -xvf hadoop-2.9.0.tar.gz

4）追加環境變數 vi /etc/profile（其它機器也要相應配置一次hadoop環境變數）

5）使環境變數生效 source /etc/profile

6）確認環境變數配置OK

7）創建HDFS存儲目錄

cd /usr/hadoop

mkdir hdfs

cd hdfs

mkdir name data tmp

/usr/hadoop/hdfs/name --存儲namenode文件

/usr/hadoop/hdfs/data --存儲數據

/usr/hadoop/hdfs/tmp --存儲臨時文件

8）修改/usr/hadoop/hadoop-2.9.0/etc/hadoop/hadoop-env.sh文件，設置JAVA_HOME為實際路徑

否則啟動集群時，會提示路徑找不到

9）修改/usr/hadoop/hadoop-2.9.0/etc/hadoop/yarn-env.sh文件，設置JAVA_HOME為實際路徑

10）配置/usr/hadoop/hadoop-2.9.0/etc/hadoop/core-site.xml

增加hadoop.tmp.dir 和 fs.default.name

11）配置/usr/hadoop/hadoop-2.9.0/etc/hadoop/hdfs-site.xml

dfs.replication：默認值3

dfs.permissions：默認值為true，設置為true有時候會遇到數據因為許可權訪問不了；設置為false可以不要檢查許可權就生成dfs上的文件

12）配置/usr/hadoop/hadoop-2.9.0/etc/hadoop/mapred-site.xml

cd /usr/hadoop/hadoop-2.9.0/etc/hadoop

cp mapred-site.xml.template mapred-site.xml

maprece.framework.name：指定maprece運行在yarn平台，默認為local

13）配置/usr/hadoop/hadoop-2.9.0/etc/hadoop/yarn-site.xml

yarn.resourcemanager.hostname：指定yarn的resourcemanager的地址

yarn.nodemanager.aux-services：recer獲取數據的方式

yarn.nodemanager.vmem-check-enabled：意思是忽略虛擬內存的檢查，如果安裝在虛擬機上，這個配置很有用，配上去之後後續操作不容易出問題。如果是在實體機上，並且內存夠多，可以將這個配置去掉

14）配置/usr/hadoop/hadoop-2.9.0/etc/hadoop/slaves文件，將裡面的localhost刪除，配置後內容如下：

15）整個/usr/hadoop/目錄到其它機器

scp -r hadoop root@slave1:/usr/

scp -r hadoop root@slave2:/usr/

3.6 啟動Hadoop

1）啟動之前需要格式化一下。因為master是namenode，slave1和slave2都是datanode，所以在master上運行

hadoop namenode -format

格式化成功後，可以看到在/usr/hadoop/hdfs/name目錄下多了一個current目錄，而且該目錄下有一系列文件，如下：

2）執行啟動（namenode只能在master上啟動，因為配置在master上；datanode每個節點上都可以啟動）

執行 start-all.sh

master上執行jps，會看到NameNode, SecondaryNameNode, ResourceManager

其它節點上執行jps，會看到DataNode, NodeManager

3）在wins上打開網頁，查看HDFS管理頁面 http://192.168.0.104:50070查看，提示無法訪問

在master上，執行以下命令關閉防火牆，即可訪問（為了能夠正常訪問node節點，最好把其它機器的防火牆也stop了）

systemctl stop firewalld.service

HDFS管理首頁

HDFS Datenodes頁

訪問Yarn管理頁： http://192.168.0.104:8088

4）通過主機名也可以訪問的設置

win7為例，需要將以下信息追加到C:\Windows\System32\drivers\etc\hosts文件中

192.168.0.104 master

192.168.0.102 slave1

192.168.0.101 slave2

Over！！！搭建成功！！！

4. 運行實例

cd /usr/hadoop/hadoop-2.9.0/share/hadoop/maprece

hadoop jar hadoop-maprece-examples-2.9.0.jar pi 5 10

。。。。。。

=====================================================

如果不關防火牆，子節點可能出現，輸入jps後只有jps一個進程，或者是缺進程的情況，關閉防火牆就好了。

閱讀全文

熱點內容

隨機啟動腳本發布：2025-07-05 16:10:30 瀏覽：535

微博資料庫設計發布：2025-07-05 15:30:55 瀏覽：31

linux485 發布：2025-07-05 14:38:28 瀏覽：310

php用的軟體發布：2025-07-05 14:06:22 瀏覽：760

沒有許可權訪問計算機發布：2025-07-05 13:29:11 瀏覽：436

javaweb開發教程視頻教程發布：2025-07-05 13:24:41 瀏覽：727

康師傅控流腳本破解發布：2025-07-05 13:17:27 瀏覽：246

java的開發流程發布：2025-07-05 12:45:11 瀏覽：696

怎麼看內存卡配置發布：2025-07-05 12:29:19 瀏覽：288

訪問學者英文個人簡歷發布：2025-07-05 12:29:17 瀏覽：837

hadoop存儲數據流程

與hadoop存儲數據流程相關的資訊