hive壓縮格式

發布時間: 2022-05-15 01:12:03

① hive下導入數據,生成表後的壓縮率大致有多大

hive不做壓縮的，只是在hdfs中移動數據，或是從本地文件系統移動到hdfs。原來是多大就是多大。
如果要壓縮，可以先壓縮好再導入，hive是不會替你做這步的。hive支持gz格式和lzo格式。gz格式原生支持。lzo格式需要某個特殊的serde。

② hdfs壓縮 hbase壓縮 hive壓縮什麼關系怎麼用

應該是Hadoop在hbase和Hive中的作用吧。 hbase與hive都是架構在hadoop之上的。都是用hadoop作為底層存儲。而h窢肌促可詎玖存雪擔磨base是作為分布式資料庫，而hive是作為分布式數據倉庫。當然hive還是借用hadoop的MapRece來完成一些hive中的命令的執行。而hbase與hive都是單獨安裝的。你需要哪個安裝哪個，所以不存在重復信息。

③ Hive是什麼

此外，hive也支持熟悉map-rece的開發者使用map-rece程序對數據做更加復雜的分析。 hive可以很好的結合thrift和控制分隔符，也支持用戶自定義分隔符。 hive基於hadoop，hadoop是批處理系統，不能保存低延遲，因此，hive的查詢也不能保證低延遲。 hive的工作模式是：提交一個任務，等到任務結束時被通知，而不是實時查詢。相對應的是，類似於Oracle這樣的系統當運行於小數據集的時候，響應非常快，可當處理的數據集非常大的時候，可能需要數小時。需要說明的是，hive即使在很小的數據集上運行，也可能需要數分鍾才能完成。低延遲不是hive追求的首要目標。

④ hive里判斷文件里有沒有數據

通常用戶在HIVE中用SELECT語句出來結果，無法確定結果是來自哪個文件或者具體位置信息，HIVE中考慮到了這點，在Virtual Column虛列中可以指定三個靜態列:
1. INPUT__FILE__NAME map任務讀入File的全路徑
2. BLOCK__OFFSET__INSIDE__FILE 如果是RCFile或者是SequenceFile塊壓縮格式文件則顯示Block file Offset，也就是當前快在文件的第一個字偏移量，如果是TextFile，顯示當前行的第一個位元組在文件中的偏移量
3. ROW__OFFSET__INSIDE__BLOCK RCFile和SequenceFile顯示row number, textfile顯示為0
註：若要顯示ROW__OFFSET__INSIDE__BLOCK ，必須設置set hive.exec.rowoffset=true;
測試：
1.
table: test_virtual_columns
InputFormat: org.apache.hadoop.mapred.TextInputFormat
query:
select a, INPUT__FILE__NAME,BLOCK__OFFSET__INSIDE__FILE,ROW__OFFSET__INSIDE__BLOCK from test_virtual_columns;
result:
qweqwe hdfs://10.2.6.102/user/hive/warehouse/tmp.db/test_virtual_columns/t3.txt 0 0
dfdf hdfs://10.2.6.102/user/hive/warehouse/tmp.db/test_virtual_columns/t3.txt 7 0
sdafsafsaf hdfs://10.2.6.102/user/hive/warehouse/tmp.db/test_virtual_columns/t3.txt 12 0
dfdffd hdfs://10.2.6.102/user/hive/warehouse/tmp.db/test_virtual_columns/t3.txt 23 0
dsf hdfs://10.2.6.102/user/hive/warehouse/tmp.db/test_virtual_columns/t3.txt 30 0
1 hdfs://10.2.6.102/user/hive/warehouse/tmp.db/test_virtual_columns/t1.txt 0 0
2 hdfs://10.2.6.102/user/hive/warehouse/tmp.db/test_virtual_columns/t1.txt 2 0
3 hdfs://10.2.6.102/user/hive/warehouse/tmp.db/test_virtual_columns/t1.txt 4 0
4 hdfs://10.2.6.102/user/hive/warehouse/tmp.db/test_virtual_columns/t1.txt 6 0
5 hdfs://10.2.6.102/user/hive/warehouse/tmp.db/test_virtual_columns/t1.txt 8 0
6 hdfs://10.2.6.102/user/hive/warehouse/tmp.db/test_virtual_columns/t1.txt 10 0
7 hdfs://10.2.6.102/user/hive/warehouse/tmp.db/test_virtual_columns/t1.txt 12 0
8 hdfs://10.2.6.102/user/hive/warehouse/tmp.db/test_virtual_columns/t2.txt 0 0
9 hdfs://10.2.6.102/user/hive/warehouse/tmp.db/test_virtual_columns/t2.txt 2 0
10 hdfs://10.2.6.102/user/hive/warehouse/tmp.db/test_virtual_columns/t2.txt 4 0
11 hdfs://10.2.6.102/user/hive/warehouse/tmp.db/test_virtual_columns/t2.txt 7 0
2.
table: nginx
InputFormat: org.apache.hadoop.hive.ql.io.RCFileInputFormat
query:
select hostname, INPUT__FILE__NAME,BLOCK__OFFSET__INSIDE__FILE,ROW__OFFSET__INSIDE__BLOCK from nginx where dt='2013-09-01' limit 10;
result:
10.1.2.162 hdfs://10.2.6.102/share/data/log/nginx_rcfile/2013-09-01/000000_0 537155468 0
10.1.2.162 hdfs://10.2.6.102/share/data/log/nginx_rcfile/2013-09-01/000000_0 537155468 1
10.1.2.162 hdfs://10.2.6.102/share/data/log/nginx_rcfile/2013-09-01/000000_0 537155468 2
10.1.2.162 hdfs://10.2.6.102/share/data/log/nginx_rcfile/2013-09-01/000000_0 537155468 3
10.1.2.162 hdfs://10.2.6.102/share/data/log/nginx_rcfile/2013-09-01/000000_0 537155468 4
10.1.2.162 hdfs://10.2.6.102/share/data/log/nginx_rcfile/2013-09-01/000000_0 537155468 5
10.1.2.162 hdfs://10.2.6.102/share/data/log/nginx_rcfile/2013-09-01/000000_0 537155468 6
10.1.2.162 hdfs://10.2.6.102/share/data/log/nginx_rcfile/2013-09-01/000000_0 537155468 7
10.1.2.162 hdfs://10.2.6.102/share/data/log/nginx_rcfile/2013-09-01/000000_0 537155468 8
10.1.2.162 hdfs://10.2.6.102/share/data/log/nginx_rcfile/2013-09-01/000000_0 537155468 9
如果碰到有臟數據或者結果異常的時候，可以通過select這三個值來定位出錯的原始文件和具體所在位置，很方便。

⑤ hive 外部表和內部表數據壓縮上有區別嗎

Hive中內部表與外部表的區別：

Hive 創建內部表時，會將數據移動到數據倉庫指向的路徑；若創建外部表，僅記錄數據所在的路徑，不對數據的位置做任何改變。在刪除表的時候，內部表的元數據和數據會被一起刪除，而外部表只刪除元數據，不刪除數據。這樣外部表相對來說更加安全些，數據組織也更加靈活，方便共享源數據。
需要注意的是傳統資料庫對表數據驗證是 schema on write（寫時模式），而 Hive 在load時是不檢查數據是否符合schema的，hive 遵循的是 schema on read（讀時模式），只有在讀的時候hive才檢查、解析具體的數據欄位、schema。
讀時模式的優勢是load data 非常迅速，因為它不需要讀取數據進行解析，僅僅進行文件的復制或者移動。

寫時模式的優勢是提升了查詢性能，因為預先解析之後可以對列建立索引，並壓縮，但這樣也會花費要多的載入時間。

⑥ Hive基礎之Hive是什麼以及Hive使用場景

Hive是什麼
1）Hive 是建立在Hadoop (HDFS/MR)上的用於管理和查詢結果化/非結構化的數據倉庫；
2）一種可以存儲、查詢和分析存儲在Hadoop 中的大規模數據的機制；
3）Hive 定義了簡單的類SQL 查詢語言，稱為HQL，它允許熟悉SQL 的用戶查詢數據；
4）允許用Java開發自定義的函數UDF來處理內置無法完成的復雜的分析工作；
5）Hive沒有專門的數據格式（分隔符等可以自己靈活的設定）；
ETL的流程（Extraction-Transformate-Loading）：將關系型資料庫的數據抽取到HDFS上，hive作為數據倉庫，經過hive的計算分析後，將結果再導入到關系型資料庫的過程。

Hive是構建在Hadoop之上的數據倉庫
1）使用HQL作為查詢介面；
2）使用HDFS作為存儲；
3）使用MapRece作為計算；

Hive應用場景
數據源：
1）文件數據，如中國移動某設備每天產生大量固定格式的文件；
2）資料庫

以上兩種不同的數據源有個共同點：要使用hive，那麼必須要將數據放到hive中；通常採用如下兩種方式：
1）文件數據：load到hive
2）資料庫: sqoop到hive
數據的離線處理；
hive的執行延遲比較高，因為hive常用於數據分析的，對實時性要求不高；
hive優勢在於處理大數據，對於處理小數據沒有優勢，因為hive的執行延遲比較高。
處理數據存放在hive表中，那麼前台系統怎麼去訪問hive的數據呢？
先將hive的處理結果數據轉移到關系型資料庫中才可以，sqoop就是執行導入導出的操作

⑦ hive的存儲格式parquet和ocfile的區別

你輸入sqoop import 的目錄在哪裡？如果在/usr/sqoop下輸入的命令，那麼在/usr/sqoop下輸入hive登入，然後show tables查看。
你輸入sqoop import 的目錄在哪裡？如果在/usr/sqoop下輸入的命令，那麼在/usr/sqoop下輸入hive登入，然後show tables查看。
hive 0.13以後自帶支持。

⑧ ubuntu 安裝hive下哪個壓縮包 src bin

ubuntu 安裝hive下哪個壓縮包 src bin
不行。安裝 vm 下載：去官網下 VMware-player-5.0.1-894247.zip 安裝和配置ubanto 下載：去官網下 ubuntu-12.10-desktop-i386.iso 打開vm，載入ubanto iso文件，進行安裝更新進入ubanto，如果是第一個進入，則需要設置root的密碼

⑨ hive 中的壓縮格式 rcfile，textfile，sequencefile 各有什麼區別

TextFile：
Hive默認格式，數據不做壓縮，磁碟開銷大，數據解析開銷大。
可結合Gzip、Bzip2、Snappy等使用（系統自動檢查，執行查詢時自動解壓），但使用這種方式，hive不會對數據進行切分，從而無法對數據進行並行操作。

⑩ leashive是什麼文件

Hive的數據分為表數據和元數據,表數據是Hive中表格(table)具有的數據;而元數據是用來存儲表的名字,表的列和分區及其屬性,表的屬性(是否為外部表等),表的數據所在目錄等。
hive文件存儲格式包括以下幾類：
1、TEXTFILE
2、SEQUENCEFILE
3、RCFILE
4、ORCFILE(0.11以後出現)
其中TEXTFILE為默認格式，建表時不指定默認為這個格式，導入數據時會直接把數據文件拷貝到hdfs上不進行處理；SEQUENCEFILE，RCFILE，ORCFILE格式的表不能直接從本地文件導入數據，數據要先導入到textfile格式的表中，然後再從表中用insert導入SequenceFile,RCFile,ORCFile表中。

閱讀全文

熱點內容

java返回this 發布：2025-10-20 08:28:16 瀏覽：735

製作腳本網站發布：2025-10-20 08:17:34 瀏覽：1000

python中的init方法發布：2025-10-20 08:17:33 瀏覽：706

圖案密碼什麼意思發布：2025-10-20 08:16:56 瀏覽：870

怎麼清理微信視頻緩存發布：2025-10-20 08:12:37 瀏覽：768

c語言編譯器怎麼看執行過程發布：2025-10-20 08:00:32 瀏覽：1109

郵箱如何填寫發信伺服器發布：2025-10-20 07:45:27 瀏覽：340

shell腳本入門案例發布：2025-10-20 07:44:45 瀏覽：216

怎麼上傳照片瀏覽上傳發布：2025-10-20 07:44:03 瀏覽：904

python股票數據獲取發布：2025-10-20 07:39:44 瀏覽：864

hive壓縮格式

與hive壓縮格式相關的資訊