hadoop文件夾大小

發布時間: 2022-11-28 01:19:11

『壹』關於Hadoop文件塊的大小

HDFS中的文件在物理上是分塊存儲的(Block)，塊的大小可以通過配置參數( dfs.blocksize )來設置，默認的塊大小在Hadoop2.x版本中是 128M ，Hadoop1.x版本中是 64M 。

Tips：硬碟平均定址時間的計算：

『貳』有1個文件的大小是65mb，hadoop框架會把這個文件拆分為多少塊

對於hadoop的數據塊大小，好像不同版本不太一樣，而且這個參數是可以配置的

如果是128M的，這個文件是不需要拆分的

『叄』面試題:hadoop中為什麼block默認是64M,有什麼好處

能夠存儲比單個節點磁碟更大的文件
簡化管理系統（block管理和文件管理分開）
單個block損壞更容易修復，方便容錯
較大的塊有利於磁碟定位
map過程可以一次處理一個block而非一個文件

至於64M只是hadoop先前的默認大小，現在的hadoop2中默認為128M，這一參數可以根據硬體配置、需要存儲的文件大小等修改，不是固定參數。

『肆』 hadoop環境怎麼查看文件大小

hadoop fs -ls - -s -h 文件目錄

『伍』 hadoop分布式文件系統具有怎樣的特性

硬體錯誤
硬體錯誤是常態而不是異常。HDFS可能由成百上千的伺服器所構成，每個伺服器上存儲著文件系統的部分數據。我們面對的現實是構成系統的組件數目是巨大的，而且任一組件都有可能失效，這意味著總是有一部分HDFS的組件是不工作的。因此錯誤檢測和快速、自動的恢復是HDFS最核心的架構目標。
流式數據訪問
運行在HDFS上的應用和普通的應用不同，需要流式訪問它們的數據集。HDFS的設計中更多的考慮到了數據批處理，而不是用戶交互處理。比之數據訪問的低延遲問題，更關鍵的在於數據訪問的高吞吐量。POSIX標准設置的很多硬性約束對HDFS應用系統不是必需的。為了提高數據的吞吐量，在一些關鍵方面對POSIX的語義做了一些修改。
大規模數據集
運行在HDFS上的應用具有很大的數據集。HDFS上的一個典型文件大小一般都在G位元組至T位元組。因此，HDFS被調節以支持大文件存儲。它應該能提供整體上高的數據傳輸帶寬，能在一個集群里擴展到數百個節點。一個單一的HDFS實例應該能支撐數以千萬計的文件。
簡單的一致性模型
HDFS應用需要一個「一次寫入多次讀取」的文件訪問模型。一個文件經過創建、寫入和關閉之後就不需要改變。這一假設簡化了數據一致性問題，並且使高吞吐量的數據訪問成為可能。Map/Rece應用或者網路爬蟲應用都非常適合這個模型。目前還有計劃在將來擴充這個模型，使之支持文件的附加寫操作。
「移動計算比移動數據更劃算」
一個應用請求的計算，離它操作的數據越近就越高效，在數據達到海量級別的時候更是如此。因為這樣就能降低網路阻塞的影響，提高系統數據的吞吐量。將計算移動到數據附近，比之將數據移動到應用所在顯然更好。HDFS為應用提供了將它們自己移動到數據附近的介面。
異構軟硬體平台間的可移植性
HDFS在設計的時候就考慮到平台的可移植性。這種特性方便了HDFS作為大規模數據應用平台的推廣。

『陸』 hadoop HDFS有提供查看空間總大小以及剩餘空間大小的介面嗎

是能查看的：

看src/webapps/hdfs/dfshealth.jsp，對應50070查看到的那個頁面，裡面搜就有了
例如： Configured Capacity對應:
org.apache.hadoop.hdfs.server.namenode.FSNamesystem.getCapacityTotal()
剩下的自己用同樣的方法找一下就都有了

『柒』 Hadoop到底是要處理什麼樣的文件大文件什麼是大文件舉個例子來說

大數據，hadoop就是用來處理大數據的，你把你的大文件，換一個名字，大數據，你自己就理解了。數據量大了，普通的資料庫處理不僅慢，很多都運行不了，所以只能用hadoop這樣採用分布式的處理方式處理大數據。
來源：商業智能和數據倉庫愛好者
提供，。。商業智能和雲計算。。。陪訓。。。。包含。。hadoop

『捌』 hadoop文件格式和壓縮

Hadoop中的文件格式大致上分為面向行和面向列兩類：

面向行：TextFile、SequenceFile、MapFile、Avro Datafile

二進制格式文件大小比文本文件大。

生產環境常用，作為原始表的存儲格式，會佔用更多磁碟資源，對它的解析開銷一般會比二進制格式高幾十倍以上。

Hadoop API 提供的一種二進制文件，它將數據以<key,value>的形式序列化到文件中。這種二進制文件內部使用Hadoop 的標準的Writable 介面實現序列化和反序列化。它與Hadoop API中的MapFile 是互相兼容的。

MapFile即為排序後的SequeneceFile，它會額外生成一個索引文件提供按鍵的查找。文件不支持復寫操作，不能向已存在的SequenceFile(MapFile)追加存儲記錄，在執行文件寫操作的時候，該文件是不可讀取的。

Avro是一種用於支持數據密集型的二進制文件格式。它的文件格式更為緊湊，若要讀取大量數據時，Avro能夠提供更好的序列化和反序列化性能。並且Avro數據文件天生是帶Schema定義的，所以它不需要開發者在API 級別實現自己的Writable對象。最近多個Hadoop 子項目都支持Avro 數據格式，如Pig 、Hive、Flume、Sqoop和Hcatalog。

面向列：Parquet 、RCFile、ORCFile

RCFile是Hive推出的一種專門面向列的數據格式。它遵循「先按列劃分，再垂直劃分」的設計理念。當查詢過程中，針對它並不關心的列時，它會在IO上跳過這些列。

ORCFile （Optimized Record Columnar File)提供了一種比RCFile更加高效的文件格式。其內部將數據劃分為默認大小為250M的Stripe。每個Stripe包括索引、數據和Footer。索引存儲每一列的最大最小值，以及列中每一行的位置。

Parquet 是一種支持嵌套結構的列式存儲格式。Parquet 的存儲模型主要由行組（Row Group）、列塊（Column Chuck）、頁（Page）組成。

1、行組，Row Group：Parquet 在水平方向上將數據劃分為行組，默認行組大小與 HDFS Block 塊大小對齊，Parquet 保證一個行組會被一個 Mapper 處理。

2、列塊，Column Chunk：行組中每一列保存在一個列塊中，一個列塊具有相同的數據類型，不同的列塊可以使用不同的壓縮。

3、頁，Page：Parquet 是頁存儲方式，每一個列塊包含多個頁，一個頁是最小的編碼的單位，同一列塊的不同頁可以使用不同的編碼方式。

一般原始表數據使用文本格式存儲，其他的都是列式存儲。

目前在Hadoop中常用的幾種壓縮格式：lzo，gzip，snappy，bzip2,主要特性對比如下：

其性能對比如下：

2.1 lzo

hadoop中最流行的壓縮格式，壓縮/解壓速度也比較快，合理的壓縮率，支持split。適用於較大文本的處理。

對於lzo壓縮，常用的有LzoCodec和lzopCodec，可以對sequenceFile和TextFile進行壓縮。對TextFile壓縮後，mapred對壓縮後的文件默認是不能夠進行split操作，需要對該lzo壓縮文件進行index操作，生成lzo.index文件，map操作才可以進行split。如果設置LzoCodec，那麼就生成.lzo後綴的文件，可以用LzoIndexer 進行支持split的index計算，如果設置LzopCodec，那麼生成.lzo_deflate後綴的文件，不支持建立index。

『玖』 Hadoop2.0以後默認塊的大小。如果一個數據文件大小為500M,則分為幾個塊保存

如果是一名工人，快要大小，一個數據文件大小為500人。

閱讀全文

熱點內容

編程是什麼如何學習發布：2025-07-21 16:21:37 瀏覽：197

android百度地圖氣泡發布：2025-07-21 16:09:41 瀏覽：223

pythonhadoop 發布：2025-07-21 16:09:37 瀏覽：889

演算法抗干擾發布：2025-07-21 16:07:37 瀏覽：341

愛奇藝緩存廣告發布：2025-07-21 15:56:49 瀏覽：550

vb操作access資料庫發布：2025-07-21 15:39:24 瀏覽：246

python建立列表發布：2025-07-21 15:39:23 瀏覽：359

文件上傳命名發布：2025-07-21 15:23:29 瀏覽：455

il反編譯器發布：2025-07-21 15:04:16 瀏覽：105

資料庫的歸檔日誌發布：2025-07-21 14:58:42 瀏覽：599

hadoop文件夾大小

與hadoop文件夾大小相關的資訊