當前位置:首頁 » 文件管理 » hadoop文件夾大小

hadoop文件夾大小

發布時間: 2022-11-28 01:19:11

『壹』 關於Hadoop文件塊的大小

HDFS中的文件在物理上是分塊存儲的(Block),塊的大小可以通過配置參數( dfs.blocksize )來設置,默認的塊大小在Hadoop2.x版本中是 128M ,Hadoop1.x版本中是 64M 。

Tips:硬碟平均定址時間的計算:

『貳』 有1個文件的大小是65mb,hadoop框架會把這個文件拆分為多少塊

對於hadoop的數據塊大小,好像不同版本不太一樣,而且這個參數是可以配置的

如果是128M的,這個文件是不需要拆分的

『叄』 面試題:hadoop中為什麼block默認是64M,有什麼好處

能夠存儲比單個節點磁碟更大的文件
簡化管理系統(block管理和文件管理分開)
單個block損壞更容易修復,方便容錯
較大的塊有利於磁碟定位
map過程可以一次處理一個block而非一個文件

至於64M只是hadoop先前的默認大小,現在的hadoop2中默認為128M,這一參數可以根據硬體配置、需要存儲的文件大小等修改,不是固定參數。

『肆』 hadoop環境怎麼查看文件大小

hadoop fs -ls - -s -h 文件目錄

『伍』 hadoop分布式文件系統具有怎樣的特性

硬體錯誤
硬體錯誤是常態而不是異常。HDFS可能由成百上千的伺服器所構成,每個伺服器上存儲著文件系統的部分數據。我們面對的現實是構成系統的組件數目是巨大的,而且任一組件都有可能失效,這意味著總是有一部分HDFS的組件是不工作的。因此錯誤檢測和快速、自動的恢復是HDFS最核心的架構目標。
流式數據訪問
運行在HDFS上的應用和普通的應用不同,需要流式訪問它們的數據集。HDFS的設計中更多的考慮到了數據批處理,而不是用戶交互處理。比之數據訪問的低延遲問題,更關鍵的在於數據訪問的高吞吐量。POSIX標准設置的很多硬性約束對HDFS應用系統不是必需的。為了提高數據的吞吐量,在一些關鍵方面對POSIX的語義做了一些修改。
大規模數據集
運行在HDFS上的應用具有很大的數據集。HDFS上的一個典型文件大小一般都在G位元組至T位元組。因此,HDFS被調節以支持大文件存儲。它應該能提供整體上高的數據傳輸帶寬,能在一個集群里擴展到數百個節點。一個單一的HDFS實例應該能支撐數以千萬計的文件。
簡單的一致性模型
HDFS應用需要一個「一次寫入多次讀取」的文件訪問模型。一個文件經過創建、寫入和關閉之後就不需要改變。這一假設簡化了數據一致性問題,並且使高吞吐量的數據訪問成為可能。Map/Rece應用或者網路爬蟲應用都非常適合這個模型。目前還有計劃在將來擴充這個模型,使之支持文件的附加寫操作。
「移動計算比移動數據更劃算」
一個應用請求的計算,離它操作的數據越近就越高效,在數據達到海量級別的時候更是如此。因為這樣就能降低網路阻塞的影響,提高系統數據的吞吐量。將計算移動到數據附近,比之將數據移動到應用所在顯然更好。HDFS為應用提供了將它們自己移動到數據附近的介面。
異構軟硬體平台間的可移植性
HDFS在設計的時候就考慮到平台的可移植性。這種特性方便了HDFS作為大規模數據應用平台的推廣。

『陸』 hadoop HDFS有提供查看空間總大小以及剩餘空間大小的介面嗎

是能查看的:

  1. 看src/webapps/hdfs/dfshealth.jsp,對應50070查看到的那個頁面,裡面搜就有了
    例如: Configured Capacity對應:
    org.apache.hadoop.hdfs.server.namenode.FSNamesystem.getCapacityTotal()

  2. 剩下的自己用同樣的方法找一下就都有了

『柒』 Hadoop到底是要處理什麼樣的文件大文件什麼是大文件舉個例子來說

大數據,hadoop就是用來處理大數據的,你把你的大文件,換一個名字,大數據,你自己就理解了。數據量大了,普通的資料庫處理不僅慢,很多都運行不了,所以只能用hadoop這樣採用分布式的處理方式處理大數據。
來源:商業智能和數據倉庫愛好者
提供,。。商業智能和雲計算。。。陪訓。。。。包含。。hadoop

『捌』 hadoop文件格式和壓縮

Hadoop中的文件格式大致上分為面向行和面向列兩類:

面向行:TextFile、SequenceFile、MapFile、Avro Datafile

二進制格式文件大小比文本文件大。

生產環境常用,作為原始表的存儲格式,會佔用更多磁碟資源,對它的 解析開銷一般會比二進制格式高 幾十倍以上。

Hadoop API 提供的一種二進制文件,它將數據以<key,value>的形式序列化到文件中。這種二進制文件內部使用Hadoop 的標準的Writable 介面實現序列化和反序列化。它與Hadoop API中的MapFile 是互相兼容的。

MapFile即為排序後的SequeneceFile,它會額外生成一個索引文件提供按鍵的查找。文件不支持復寫操作,不能向已存在的SequenceFile(MapFile)追加存儲記錄,在執行文件寫操作的時候,該文件是不可讀取的。

Avro是一種用於支持數據密集型的二進制文件格式。它的文件格式更為緊湊,若要讀取大量數據時,Avro能夠提供更好的序列化和反序列化性能。並且Avro數據文件天生是帶Schema定義的,所以它不需要開發者在API 級別實現自己的Writable對象。最近多個Hadoop 子項目都支持Avro 數據格式,如Pig 、Hive、Flume、Sqoop和Hcatalog。

面向列:Parquet 、RCFile、ORCFile

RCFile是Hive推出的一種專門面向列的數據格式。 它遵循「先按列劃分,再垂直劃分」的設計理念。當查詢過程中,針對它並不關心的列時,它會在IO上跳過這些列。

ORCFile (Optimized Record Columnar File)提供了一種比RCFile更加高效的文件格式。其內部將數據劃分為默認大小為250M的Stripe。每個Stripe包括索引、數據和Footer。索引存儲每一列的最大最小值,以及列中每一行的位置。

Parquet 是一種支持嵌套結構的列式存儲格式。Parquet 的存儲模型主要由行組(Row Group)、列塊(Column Chuck)、頁(Page)組成。

1、行組,Row Group:Parquet 在水平方向上將數據劃分為行組,默認行組大小與 HDFS Block 塊大小對齊,Parquet 保證一個行組會被一個 Mapper 處理。

2、列塊,Column Chunk:行組中每一列保存在一個列塊中,一個列塊具有相同的數據類型,不同的列塊可以使用不同的壓縮。

3、頁,Page:Parquet 是頁存儲方式,每一個列塊包含多個頁,一個頁是最小的編碼的單位,同一列塊的不同頁可以使用不同的編碼方式。

一般原始表數據使用文本格式存儲,其他的都是列式存儲。

目前在Hadoop中常用的幾種壓縮格式:lzo,gzip,snappy,bzip2,主要特性對比如下:

其性能對比如下:

2.1 lzo

hadoop中最流行的壓縮格式,壓縮/解壓速度也比較快,合理的壓縮率,支持split。適用於較大文本的處理。

對於lzo壓縮,常用的有LzoCodec和lzopCodec,可以對sequenceFile和TextFile進行壓縮。對TextFile壓縮後,mapred對壓縮後的文件默認是不能夠進行split操作,需要對該lzo壓縮文件進行index操作,生成lzo.index文件,map操作才可以進行split。如果設置LzoCodec,那麼就生成.lzo後綴的文件,可以用LzoIndexer 進行支持split的index計算,如果設置LzopCodec,那麼生成.lzo_deflate後綴的文件,不支持建立index。

『玖』 Hadoop2.0以後默認塊的大小。如果一個數據文件大小為500M,則分為幾個塊保存

如果是一名工人,快要大小,一個數據文件大小為500人。

熱點內容
無線路由器怎麼重新設置密碼 發布:2023-01-31 12:41:40 瀏覽:351
api伺服器搭建api 發布:2023-01-31 12:37:26 瀏覽:135
key伺服器ip 發布:2023-01-31 12:37:24 瀏覽:193
mysql資料庫密碼修改 發布:2023-01-31 12:36:05 瀏覽:443
訪問量統計插件 發布:2023-01-31 12:29:20 瀏覽:206
內存中的緩存 發布:2023-01-31 12:29:08 瀏覽:113
易語言判斷是否是文件夾 發布:2023-01-31 12:28:24 瀏覽:64
c語言while跳出 發布:2023-01-31 12:14:09 瀏覽:947
外語加編程 發布:2023-01-31 12:14:07 瀏覽:150
cl手動編譯 發布:2023-01-31 12:09:45 瀏覽:277