hive压缩格式

发布时间: 2022-05-15 01:12:03

① hive下导入数据,生成表后的压缩率大致有多大

hive不做压缩的，只是在hdfs中移动数据，或是从本地文件系统移动到hdfs。原来是多大就是多大。
如果要压缩，可以先压缩好再导入，hive是不会替你做这步的。hive支持gz格式和lzo格式。gz格式原生支持。lzo格式需要某个特殊的serde。

② hdfs压缩 hbase压缩 hive压缩什么关系怎么用

应该是Hadoop在hbase和Hive中的作用吧。 hbase与hive都是架构在hadoop之上的。都是用hadoop作为底层存储。而h窢肌促可讵玖存雪担磨base是作为分布式数据库，而hive是作为分布式数据仓库。当然hive还是借用hadoop的MapRece来完成一些hive中的命令的执行。而hbase与hive都是单独安装的。你需要哪个安装哪个，所以不存在重复信息。

③ Hive是什么

此外，hive也支持熟悉map-rece的开发者使用map-rece程序对数据做更加复杂的分析。 hive可以很好的结合thrift和控制分隔符，也支持用户自定义分隔符。 hive基于hadoop，hadoop是批处理系统，不能保存低延迟，因此，hive的查询也不能保证低延迟。 hive的工作模式是：提交一个任务，等到任务结束时被通知，而不是实时查询。相对应的是，类似于Oracle这样的系统当运行于小数据集的时候，响应非常快，可当处理的数据集非常大的时候，可能需要数小时。需要说明的是，hive即使在很小的数据集上运行，也可能需要数分钟才能完成。低延迟不是hive追求的首要目标。

④ hive里判断文件里有没有数据

通常用户在HIVE中用SELECT语句出来结果，无法确定结果是来自哪个文件或者具体位置信息，HIVE中考虑到了这点，在Virtual Column虚列中可以指定三个静态列:
1. INPUT__FILE__NAME map任务读入File的全路径
2. BLOCK__OFFSET__INSIDE__FILE 如果是RCFile或者是SequenceFile块压缩格式文件则显示Block file Offset，也就是当前快在文件的第一个字偏移量，如果是TextFile，显示当前行的第一个字节在文件中的偏移量
3. ROW__OFFSET__INSIDE__BLOCK RCFile和SequenceFile显示row number, textfile显示为0
注：若要显示ROW__OFFSET__INSIDE__BLOCK ，必须设置set hive.exec.rowoffset=true;
测试：
1.
table: test_virtual_columns
InputFormat: org.apache.hadoop.mapred.TextInputFormat
query:
select a, INPUT__FILE__NAME,BLOCK__OFFSET__INSIDE__FILE,ROW__OFFSET__INSIDE__BLOCK from test_virtual_columns;
result:
qweqwe hdfs://10.2.6.102/user/hive/warehouse/tmp.db/test_virtual_columns/t3.txt 0 0
dfdf hdfs://10.2.6.102/user/hive/warehouse/tmp.db/test_virtual_columns/t3.txt 7 0
sdafsafsaf hdfs://10.2.6.102/user/hive/warehouse/tmp.db/test_virtual_columns/t3.txt 12 0
dfdffd hdfs://10.2.6.102/user/hive/warehouse/tmp.db/test_virtual_columns/t3.txt 23 0
dsf hdfs://10.2.6.102/user/hive/warehouse/tmp.db/test_virtual_columns/t3.txt 30 0
1 hdfs://10.2.6.102/user/hive/warehouse/tmp.db/test_virtual_columns/t1.txt 0 0
2 hdfs://10.2.6.102/user/hive/warehouse/tmp.db/test_virtual_columns/t1.txt 2 0
3 hdfs://10.2.6.102/user/hive/warehouse/tmp.db/test_virtual_columns/t1.txt 4 0
4 hdfs://10.2.6.102/user/hive/warehouse/tmp.db/test_virtual_columns/t1.txt 6 0
5 hdfs://10.2.6.102/user/hive/warehouse/tmp.db/test_virtual_columns/t1.txt 8 0
6 hdfs://10.2.6.102/user/hive/warehouse/tmp.db/test_virtual_columns/t1.txt 10 0
7 hdfs://10.2.6.102/user/hive/warehouse/tmp.db/test_virtual_columns/t1.txt 12 0
8 hdfs://10.2.6.102/user/hive/warehouse/tmp.db/test_virtual_columns/t2.txt 0 0
9 hdfs://10.2.6.102/user/hive/warehouse/tmp.db/test_virtual_columns/t2.txt 2 0
10 hdfs://10.2.6.102/user/hive/warehouse/tmp.db/test_virtual_columns/t2.txt 4 0
11 hdfs://10.2.6.102/user/hive/warehouse/tmp.db/test_virtual_columns/t2.txt 7 0
2.
table: nginx
InputFormat: org.apache.hadoop.hive.ql.io.RCFileInputFormat
query:
select hostname, INPUT__FILE__NAME,BLOCK__OFFSET__INSIDE__FILE,ROW__OFFSET__INSIDE__BLOCK from nginx where dt='2013-09-01' limit 10;
result:
10.1.2.162 hdfs://10.2.6.102/share/data/log/nginx_rcfile/2013-09-01/000000_0 537155468 0
10.1.2.162 hdfs://10.2.6.102/share/data/log/nginx_rcfile/2013-09-01/000000_0 537155468 1
10.1.2.162 hdfs://10.2.6.102/share/data/log/nginx_rcfile/2013-09-01/000000_0 537155468 2
10.1.2.162 hdfs://10.2.6.102/share/data/log/nginx_rcfile/2013-09-01/000000_0 537155468 3
10.1.2.162 hdfs://10.2.6.102/share/data/log/nginx_rcfile/2013-09-01/000000_0 537155468 4
10.1.2.162 hdfs://10.2.6.102/share/data/log/nginx_rcfile/2013-09-01/000000_0 537155468 5
10.1.2.162 hdfs://10.2.6.102/share/data/log/nginx_rcfile/2013-09-01/000000_0 537155468 6
10.1.2.162 hdfs://10.2.6.102/share/data/log/nginx_rcfile/2013-09-01/000000_0 537155468 7
10.1.2.162 hdfs://10.2.6.102/share/data/log/nginx_rcfile/2013-09-01/000000_0 537155468 8
10.1.2.162 hdfs://10.2.6.102/share/data/log/nginx_rcfile/2013-09-01/000000_0 537155468 9
如果碰到有脏数据或者结果异常的时候，可以通过select这三个值来定位出错的原始文件和具体所在位置，很方便。

⑤ hive 外部表和内部表数据压缩上有区别吗

Hive中内部表与外部表的区别：

Hive 创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。
需要注意的是传统数据库对表数据验证是 schema on write（写时模式），而 Hive 在load时是不检查数据是否符合schema的，hive 遵循的是 schema on read（读时模式），只有在读的时候hive才检查、解析具体的数据字段、schema。
读时模式的优势是load data 非常迅速，因为它不需要读取数据进行解析，仅仅进行文件的复制或者移动。

写时模式的优势是提升了查询性能，因为预先解析之后可以对列建立索引，并压缩，但这样也会花费要多的加载时间。

⑥ Hive基础之Hive是什么以及Hive使用场景

Hive是什么
1）Hive 是建立在Hadoop (HDFS/MR)上的用于管理和查询结果化/非结构化的数据仓库；
2）一种可以存储、查询和分析存储在Hadoop 中的大规模数据的机制；
3）Hive 定义了简单的类SQL 查询语言，称为HQL，它允许熟悉SQL 的用户查询数据；
4）允许用Java开发自定义的函数UDF来处理内置无法完成的复杂的分析工作；
5）Hive没有专门的数据格式（分隔符等可以自己灵活的设定）；
ETL的流程（Extraction-Transformate-Loading）：将关系型数据库的数据抽取到HDFS上，hive作为数据仓库，经过hive的计算分析后，将结果再导入到关系型数据库的过程。

Hive是构建在Hadoop之上的数据仓库
1）使用HQL作为查询接口；
2）使用HDFS作为存储；
3）使用MapRece作为计算；

Hive应用场景
数据源：
1）文件数据，如中国移动某设备每天产生大量固定格式的文件；
2）数据库

以上两种不同的数据源有个共同点：要使用hive，那么必须要将数据放到hive中；通常采用如下两种方式：
1）文件数据：load到hive
2）数据库: sqoop到hive
数据的离线处理；
hive的执行延迟比较高，因为hive常用于数据分析的，对实时性要求不高；
hive优势在于处理大数据，对于处理小数据没有优势，因为hive的执行延迟比较高。
处理数据存放在hive表中，那么前台系统怎么去访问hive的数据呢？
先将hive的处理结果数据转移到关系型数据库中才可以，sqoop就是执行导入导出的操作

⑦ hive的存储格式parquet和ocfile的区别

你输入sqoop import 的目录在哪里？如果在/usr/sqoop下输入的命令，那么在/usr/sqoop下输入hive登入，然后show tables查看。
你输入sqoop import 的目录在哪里？如果在/usr/sqoop下输入的命令，那么在/usr/sqoop下输入hive登入，然后show tables查看。
hive 0.13以后自带支持。

⑧ ubuntu 安装hive下哪个压缩包 src bin

ubuntu 安装hive下哪个压缩包 src bin
不行。安装 vm 下载：去官网下 VMware-player-5.0.1-894247.zip 安装和配置ubanto 下载：去官网下 ubuntu-12.10-desktop-i386.iso 打开vm，载入ubanto iso文件，进行安装更新进入ubanto，如果是第一个进入，则需要设置root的密码

⑨ hive 中的压缩格式 rcfile，textfile，sequencefile 各有什么区别

TextFile：
Hive默认格式，数据不做压缩，磁盘开销大，数据解析开销大。
可结合Gzip、Bzip2、Snappy等使用（系统自动检查，执行查询时自动解压），但使用这种方式，hive不会对数据进行切分，从而无法对数据进行并行操作。

⑩ leashive是什么文件

Hive的数据分为表数据和元数据,表数据是Hive中表格(table)具有的数据;而元数据是用来存储表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。
hive文件存储格式包括以下几类：
1、TEXTFILE
2、SEQUENCEFILE
3、RCFILE
4、ORCFILE(0.11以后出现)
其中TEXTFILE为默认格式，建表时不指定默认为这个格式，导入数据时会直接把数据文件拷贝到hdfs上不进行处理；SEQUENCEFILE，RCFILE，ORCFILE格式的表不能直接从本地文件导入数据，数据要先导入到textfile格式的表中，然后再从表中用insert导入SequenceFile,RCFile,ORCFile表中。

阅读全文

热点内容

java返回this 发布：2025-10-20 08:28:16 浏览：735

制作脚本网站发布：2025-10-20 08:17:34 浏览：1000

python中的init方法发布：2025-10-20 08:17:33 浏览：706

图案密码什么意思发布：2025-10-20 08:16:56 浏览：870

怎么清理微信视频缓存发布：2025-10-20 08:12:37 浏览：768

c语言编译器怎么看执行过程发布：2025-10-20 08:00:32 浏览：1109

邮箱如何填写发信服务器发布：2025-10-20 07:45:27 浏览：340

shell脚本入门案例发布：2025-10-20 07:44:45 浏览：216

怎么上传照片浏览上传发布：2025-10-20 07:44:03 浏览：904

python股票数据获取发布：2025-10-20 07:39:44 浏览：864

hive压缩格式

与hive压缩格式相关的资讯