hadoop文件夹大小

发布时间: 2022-11-28 01:19:11

‘壹’ 关于Hadoop文件块的大小

HDFS中的文件在物理上是分块存储的(Block)，块的大小可以通过配置参数( dfs.blocksize )来设置，默认的块大小在Hadoop2.x版本中是 128M ，Hadoop1.x版本中是 64M 。

Tips：硬盘平均寻址时间的计算：

‘贰’ 有1个文件的大小是65mb，hadoop框架会把这个文件拆分为多少块

对于hadoop的数据块大小，好像不同版本不太一样，而且这个参数是可以配置的

如果是128M的，这个文件是不需要拆分的

‘叁’ 面试题:hadoop中为什么block默认是64M,有什么好处

能够存储比单个节点磁盘更大的文件
简化管理系统（block管理和文件管理分开）
单个block损坏更容易修复，方便容错
较大的块有利于磁盘定位
map过程可以一次处理一个block而非一个文件

至于64M只是hadoop先前的默认大小，现在的hadoop2中默认为128M，这一参数可以根据硬件配置、需要存储的文件大小等修改，不是固定参数。

‘肆’ hadoop环境怎么查看文件大小

hadoop fs -ls - -s -h 文件目录

‘伍’ hadoop分布式文件系统具有怎样的特性

硬件错误
硬件错误是常态而不是异常。HDFS可能由成百上千的服务器所构成，每个服务器上存储着文件系统的部分数据。我们面对的现实是构成系统的组件数目是巨大的，而且任一组件都有可能失效，这意味着总是有一部分HDFS的组件是不工作的。因此错误检测和快速、自动的恢复是HDFS最核心的架构目标。
流式数据访问
运行在HDFS上的应用和普通的应用不同，需要流式访问它们的数据集。HDFS的设计中更多的考虑到了数据批处理，而不是用户交互处理。比之数据访问的低延迟问题，更关键的在于数据访问的高吞吐量。POSIX标准设置的很多硬性约束对HDFS应用系统不是必需的。为了提高数据的吞吐量，在一些关键方面对POSIX的语义做了一些修改。
大规模数据集
运行在HDFS上的应用具有很大的数据集。HDFS上的一个典型文件大小一般都在G字节至T字节。因此，HDFS被调节以支持大文件存储。它应该能提供整体上高的数据传输带宽，能在一个集群里扩展到数百个节点。一个单一的HDFS实例应该能支撑数以千万计的文件。
简单的一致性模型
HDFS应用需要一个“一次写入多次读取”的文件访问模型。一个文件经过创建、写入和关闭之后就不需要改变。这一假设简化了数据一致性问题，并且使高吞吐量的数据访问成为可能。Map/Rece应用或者网络爬虫应用都非常适合这个模型。目前还有计划在将来扩充这个模型，使之支持文件的附加写操作。
“移动计算比移动数据更划算”
一个应用请求的计算，离它操作的数据越近就越高效，在数据达到海量级别的时候更是如此。因为这样就能降低网络阻塞的影响，提高系统数据的吞吐量。将计算移动到数据附近，比之将数据移动到应用所在显然更好。HDFS为应用提供了将它们自己移动到数据附近的接口。
异构软硬件平台间的可移植性
HDFS在设计的时候就考虑到平台的可移植性。这种特性方便了HDFS作为大规模数据应用平台的推广。

‘陆’ hadoop HDFS有提供查看空间总大小以及剩余空间大小的接口吗

是能查看的：

看src/webapps/hdfs/dfshealth.jsp，对应50070查看到的那个页面，里面搜就有了
例如： Configured Capacity对应:
org.apache.hadoop.hdfs.server.namenode.FSNamesystem.getCapacityTotal()
剩下的自己用同样的方法找一下就都有了

‘柒’ Hadoop到底是要处理什么样的文件大文件什么是大文件举个例子来说

大数据，hadoop就是用来处理大数据的，你把你的大文件，换一个名字，大数据，你自己就理解了。数据量大了，普通的数据库处理不仅慢，很多都运行不了，所以只能用hadoop这样采用分布式的处理方式处理大数据。
来源：商业智能和数据仓库爱好者
提供，。。商业智能和云计算。。。陪训。。。。包含。。hadoop

‘捌’ hadoop文件格式和压缩

Hadoop中的文件格式大致上分为面向行和面向列两类：

面向行：TextFile、SequenceFile、MapFile、Avro Datafile

二进制格式文件大小比文本文件大。

生产环境常用，作为原始表的存储格式，会占用更多磁盘资源，对它的解析开销一般会比二进制格式高几十倍以上。

Hadoop API 提供的一种二进制文件，它将数据以<key,value>的形式序列化到文件中。这种二进制文件内部使用Hadoop 的标准的Writable 接口实现序列化和反序列化。它与Hadoop API中的MapFile 是互相兼容的。

MapFile即为排序后的SequeneceFile，它会额外生成一个索引文件提供按键的查找。文件不支持复写操作，不能向已存在的SequenceFile(MapFile)追加存储记录，在执行文件写操作的时候，该文件是不可读取的。

Avro是一种用于支持数据密集型的二进制文件格式。它的文件格式更为紧凑，若要读取大量数据时，Avro能够提供更好的序列化和反序列化性能。并且Avro数据文件天生是带Schema定义的，所以它不需要开发者在API 级别实现自己的Writable对象。最近多个Hadoop 子项目都支持Avro 数据格式，如Pig 、Hive、Flume、Sqoop和Hcatalog。

面向列：Parquet 、RCFile、ORCFile

RCFile是Hive推出的一种专门面向列的数据格式。它遵循“先按列划分，再垂直划分”的设计理念。当查询过程中，针对它并不关心的列时，它会在IO上跳过这些列。

ORCFile （Optimized Record Columnar File)提供了一种比RCFile更加高效的文件格式。其内部将数据划分为默认大小为250M的Stripe。每个Stripe包括索引、数据和Footer。索引存储每一列的最大最小值，以及列中每一行的位置。

Parquet 是一种支持嵌套结构的列式存储格式。Parquet 的存储模型主要由行组（Row Group）、列块（Column Chuck）、页（Page）组成。

1、行组，Row Group：Parquet 在水平方向上将数据划分为行组，默认行组大小与 HDFS Block 块大小对齐，Parquet 保证一个行组会被一个 Mapper 处理。

2、列块，Column Chunk：行组中每一列保存在一个列块中，一个列块具有相同的数据类型，不同的列块可以使用不同的压缩。

3、页，Page：Parquet 是页存储方式，每一个列块包含多个页，一个页是最小的编码的单位，同一列块的不同页可以使用不同的编码方式。

一般原始表数据使用文本格式存储，其他的都是列式存储。

目前在Hadoop中常用的几种压缩格式：lzo，gzip，snappy，bzip2,主要特性对比如下：

其性能对比如下：

2.1 lzo

hadoop中最流行的压缩格式，压缩/解压速度也比较快，合理的压缩率，支持split。适用于较大文本的处理。

对于lzo压缩，常用的有LzoCodec和lzopCodec，可以对sequenceFile和TextFile进行压缩。对TextFile压缩后，mapred对压缩后的文件默认是不能够进行split操作，需要对该lzo压缩文件进行index操作，生成lzo.index文件，map操作才可以进行split。如果设置LzoCodec，那么就生成.lzo后缀的文件，可以用LzoIndexer 进行支持split的index计算，如果设置LzopCodec，那么生成.lzo_deflate后缀的文件，不支持建立index。

‘玖’ Hadoop2.0以后默认块的大小。如果一个数据文件大小为500M,则分为几个块保存

如果是一名工人，快要大小，一个数据文件大小为500人。

阅读全文

热点内容

linux外网ip 发布：2025-07-22 02:49:23 浏览：887

内核和根文件系统的编译与配置发布：2025-07-22 02:45:00 浏览：588

ps存储了文件但找不到发布：2025-07-22 02:39:10 浏览：191

dcu反编译发布：2025-07-22 02:21:50 浏览：161

比亚迪车机安卓什么版本发布：2025-07-22 02:19:46 浏览：983

负九源码发布：2025-07-22 02:00:52 浏览：760

老安卓机安装什么系统流畅发布：2025-07-22 01:59:36 浏览：422

苹果6新建文件夹发布：2025-07-22 01:47:25 浏览：875

如何消除安卓手机上的悬浮小圈发布：2025-07-22 01:45:15 浏览：282

如何使用云存储的服务器发布：2025-07-22 01:37:03 浏览：637

hadoop文件夹大小

与hadoop文件夹大小相关的资讯