hive編譯模塊

發布時間: 2023-01-27 02:29:06

❶ Hive入門概述

1.1 什麼是Hive

Hive：由Facebook開源用於解決海量結構化日誌的數據統計。

Hive是基於Hadoop的一個數據倉庫工具，可以將結構化的數據文件映射為一張表，並提供類sql查詢功能。本質是：將HQL轉化成MapRece程序

Hive處理的數據存儲在HDFS

Hive分析數據底層的實現是MapRece

執行程序運行在Yarn上

1.2 Hive的優缺點

1.2.1 優點

操作介面採用類SQL語法，提供快速開發的能力（簡單、容易上手）。

避免了去寫MapRece，減少開發人員的學習成本。

Hive的執行延遲比較高，因此Hive常用於數據分析，對實時性要求不高的場合。

Hive優勢在於處理大數據，對於處理小數據沒有優勢，因為Hive的執行延遲比較高。

Hive支持用戶自定義函數，用戶可以根據自己的需求來實現自己的函數。

1.2.2 缺點

1．Hive的HQL表達能力有限

（1）迭代式演算法無法表達

（2）數據挖掘方面不擅長

2．Hive的效率比較低

（1）Hive自動生成的MapRece作業，通常情況下不夠智能化

（2）Hive調優比較困難，粒度較粗

1.3 Hive架構原理

1．用戶介面：Client

CLI（hive shell）、JDBC/ODBC(java 訪問hive)、WEBUI（瀏覽器訪問hive）

2．元數據：Metastore

元數據包括：表名、表所屬的資料庫（默認是default）、表的擁有者、列/分區欄位、表的類型（是否是外部表）、表的數據所在目錄等；

默認存儲在自帶的derby資料庫中，推薦使用MySQL替代derby存儲Metastore

3．Hadoop

使用HDFS進行存儲，使用MapRece進行計算。

4．驅動器：Driver

（1）解析器（SQL Parser）：將SQL字元串轉換成抽象語法樹AST，這一步一般都用第三方工具庫完成，比如antlr；對AST進行語法分析，比如表是否存在、欄位是否存在、SQL語義是否有誤。

（2）編譯器（Physical Plan）：將AST編譯生成邏輯執行計劃。

（3）優化器（Query Optimizer）：對邏輯執行計劃進行優化。

（4）執行器（Execution）：把邏輯執行計劃轉換成可以運行的物理計劃。對於Hive來說，就是MR/Spark。

Hive通過給用戶提供的一系列交互介面，接收到用戶的指令(SQL)，使用自己的Driver，結合元數據(MetaStore)，將這些指令翻譯成MapRece，提交到Hadoop中執行，最後，將執行返回的結果輸出到用戶交互介面。

1.4 Hive和資料庫比較

由於 Hive 採用了類似SQL 的查詢語言 HQL(Hive Query Language)，因此很容易將 Hive 理解為資料庫。其實從結構上來看，Hive 和資料庫除了擁有類似的查詢語言，再無類似之處。本文將從多個方面來闡述 Hive 和資料庫的差異。資料庫可以用在 Online 的應用中，但是Hive 是為數據倉庫而設計的，清楚這一點，有助於從應用角度理解 Hive 的特性。

1.4.1 查詢語言

由於SQL被廣泛的應用在數據倉庫中，因此，專門針對Hive的特性設計了類SQL的查詢語言HQL。熟悉SQL開發的開發者可以很方便的使用Hive進行開發。

1.4.2 數據存儲位置

Hive 是建立在 Hadoop 之上的，所有 Hive 的數據都是存儲在 HDFS 中的。而資料庫則可以將數據保存在塊設備或者本地文件系統中。

1.4.3 數據更新

由於Hive是針對數據倉庫應用設計的，而數據倉庫的內容是讀多寫少的。因此，Hive中不建議對數據的改寫，所有的數據都是在載入的時候確定好的。而資料庫中的數據通常是需要經常進行修改的，因此可以使用 INSERT INTO … VALUES 添加數據，使用 UPDATE … SET修改數據。

1.4.4 索引

Hive在載入數據的過程中不會對數據進行任何處理，甚至不會對數據進行掃描，因此也沒有對數據中的某些Key建立索引。Hive要訪問數據中滿足條件的特定值時，需要暴力掃描整個數據，因此訪問延遲較高。由於 MapRece 的引入， Hive 可以並行訪問數據，因此即使沒有索引，對於大數據量的訪問，Hive 仍然可以體現出優勢。資料庫中，通常會針對一個或者幾個列建立索引，因此對於少量的特定條件的數據的訪問，資料庫可以有很高的效率，較低的延遲。由於數據的訪問延遲較高，決定了 Hive 不適合在線數據查詢。

1.4.5 執行

Hive中大多數查詢的執行是通過 Hadoop 提供的 MapRece 來實現的。而資料庫通常有自己的執行引擎。

1.4.6 執行延遲

Hive 在查詢數據的時候，由於沒有索引，需要掃描整個表，因此延遲較高。另外一個導致 Hive 執行延遲高的因素是 MapRece框架。由於MapRece 本身具有較高的延遲，因此在利用MapRece 執行Hive查詢時，也會有較高的延遲。相對的，資料庫的執行延遲較低。當然，這個低是有條件的，即數據規模較小，當數據規模大到超過資料庫的處理能力的時候，Hive的並行計算顯然能體現出優勢。

1.4.7 可擴展性

由於Hive是建立在Hadoop之上的，因此Hive的可擴展性是和Hadoop的可擴展性是一致的（世界上最大的Hadoop 集群在 Yahoo!，2009年的規模在4000 台節點左右）。而資料庫由於 ACID 語義的嚴格限制，擴展行非常有限。目前最先進的並行資料庫 Oracle 在理論上的擴展能力也只有100台左右。

1.4.8 數據規模

由於Hive建立在集群上並可以利用MapRece進行並行計算，因此可以支持很大規模的數據；對應的，資料庫可以支持的數據規模較小。

❷ 程序中的Hive具體是干什麼用的呢

Hive是基於Hadoop平台的數倉工具，具有海量數據存儲、水平可擴展、離線批量處理的優點，解決了傳統關系型數倉不能支持海量數據存儲、水平可擴展性差等問題，但是由於Hive數據存儲和數據處理是依賴於HDFS和MapRece，因此在Hive進行數據離線批量處理時，需將查詢語言先轉換成MR任務，由MR批量處理返回結果，所以Hive沒法滿足數據實時查詢分析的需求。
Hive是由FaceBook研發並開源，當時FaceBook使用Oracle作為數倉，由於數據量越來越大，Oracle數倉性能越來越差，沒法實現海量數據的離線批量分析，因此基於Hadoop研發Hive，並開源給Apacha。
由於Hive不能實現數據實時查詢交互，Hbase可提供實時在線查詢能力，因此Hive和Hbase形成了良性互補。Hbase因為其海量數據存儲、水平擴展、批量數據處理等優點，也得到了廣泛應用。
Pig與HIVE工具類似，都可以用類sql語言對數據進行處理。但是他們應用場景有區別，Pig用於數據倉庫數據的ETL，HIVE用於數倉數據分析。
從架構圖當中，可看出Hive並沒有完成數據的存儲和處理，它是由HDFS完成數據存儲，MR完成數據處理，其只是提供了用戶查詢語言的能力。Hive支持類sql語言，這種SQL稱為Hivesql。用戶可用Hivesql語言查詢，其驅動可將Hivesql語言轉換成MR任務，完成數據處理。
【Hive的訪問介面】
CLI：是hive提供的命令行工具
HWI：是Hive的web訪問介面
JDBC/ODBC：是兩種的標準的應用程序編程訪問介面
Thrift Server：提供異構語言，進行遠程RPC調用Hive的能力。
因此Hiv具備豐富的訪問介面能力，幾乎能滿足各種開發應用場景需求。
【Driver】
是HIVE比較核心的驅動模塊，包含編譯器、優化器、執行器，職責為把用戶輸入的Hivesql轉換成MR數據處理任務
【Metastore】
是HIVE的元數據存儲模塊，數據的訪問和查找，必須要先訪問元數據。Hive中的元數據一般使用單獨的關系型資料庫存儲，常用的是Mysql，為了確保高可用，Mysql元資料庫還需主備部署。
架構圖上面Karmasphere、Hue、Qubole也是訪問HIVE的工具，其中Qubole可遠程訪問HIVE，相當於HIVE作為一種公有雲服務，用戶可通過互聯網訪問Hive服務。
Hive在使用過程中出現了一些不穩定問題，由此發展出了Hive HA機制，

❸ 如何通俗地理解Hive的工作原理

Hive是建立在 Hadoop 上的數據倉庫基礎構架。它提供了一系列的工具，可以用來進行數據提取轉化載入（ETL），這是一種可以存儲、查詢和分析存儲在 Hadoop 中的大規模數據的機制。Hive 定義了簡單的類 SQL 查詢語言，稱為 HQL，它允許熟悉 SQL 的用戶查詢數據。同時，這個語言也允許熟悉 MapRece 開發者的開發自定義的 mapper 和 recer 來處理內建的 mapper 和 recer 無法完成的復雜的分析工作。
流程大致步驟為：
1. 用戶提交查詢等任務給Driver。
2. 編譯器獲得該用戶的任務Plan。
3. 編譯器Compiler根據用戶任務去MetaStore中獲取需要的Hive的元數據信息。
4. 編譯器Compiler得到元數據信息，對任務進行編譯，先將HiveQL轉換為抽象語法樹，然後將抽象語法樹轉換成查詢塊，將查詢塊轉化為邏輯的查詢計劃，重寫邏輯查詢計劃，將邏輯計劃轉化為物理的計劃（MapRece）, 最後選擇最佳的策略。
5. 將最終的計劃提交給Driver。
6. Driver將計劃Plan轉交給ExecutionEngine去執行，獲取元數據信息，提交給JobTracker或者SourceManager執行該任務，任務會直接讀取HDFS中文件進行相應的操作。
7. 獲取執行的結果。
8. 取得並返回執行結果。

❹ 怎樣只編譯hive的一個component

windows自帶的記事本只能做編輯源代碼使用，要編譯需要有編譯器才行，找些其他的集成化軟體，編輯編譯連接調試集成一體的，如vc6.0，wintc等

❺ Hive是什麼

此外，hive也支持熟悉map-rece的開發者使用map-rece程序對數據做更加復雜的分析。 hive可以很好的結合thrift和控制分隔符，也支持用戶自定義分隔符。 hive基於hadoop，hadoop是批處理系統，不能保存低延遲，因此，hive的查詢也不能保證低延遲。 hive的工作模式是：提交一個任務，等到任務結束時被通知，而不是實時查詢。相對應的是，類似於Oracle這樣的系統當運行於小數據集的時候，響應非常快，可當處理的數據集非常大的時候，可能需要數小時。需要說明的是，hive即使在很小的數據集上運行，也可能需要數分鍾才能完成。低延遲不是hive追求的首要目標。

❻ hive 使用tez

1,編譯tez 見 https://www.jianshu.com/p/b2569796dd27

2,將編譯後的tez-0.9.2.tar.gz 上傳到hdfs上. tez-site.xml中會使用到.見tez.lib.uris屬性.
3,在 $HADOOP_HOME/etc/hadoop 下新建 tez-site.xml.內容如下

4,設置 hive. 修改hive-site.xml文件

5,設置客戶端的tez. 將 tez-0.9.2.tar.gz 解壓到本地 /usr/tez下.

6,重啟服務
會有一下一些錯誤.
錯誤1 :cause: org.apache.hadoop.service.ServiceStateException: java.lang.NoClassDefFoundError: com/google/common/net/UrlEscapers

解決: 我是將$HIVE_HOME/lib中的guava-14.0.1.jar 升級到guava-19.0.jar. 這個問題解決.但是日誌中還是有些錯誤,不影響結果的產出.

錯誤2:
使用hive cli 的方式可以正常提交sql.並且在yarn上可以看到作業的運行情況.
但是使用 ** beeline -u jdbc: hive2://localhost:10000 ** .在yarn上看不到作業運行,並且報錯. 錯誤日誌只能在hive ui上查看.

❼ 我想學習hive，請問安裝hive之前，必須安裝centos、hadoop、java這些嗎

安裝需要
java 1.6，java 1.7或更高版本。
Hadoop 2.x或更高, 1.x. Hive 0.13 版本也支持 0.20.x, 0.23.x
linux,mac,windows操作系統。以下內容適用於linux系統。
安裝打包好的hive
需要先到apache下載已打包好的hive鏡像，然後解壓開該文件
$ tar -xzvf hive-x.y.z.tar.gz

設置hive環境變數
$ cd hive-x.y.z$ export HIVE_HOME={{pwd}}

設置hive運行路徑
$ export PATH=$HIVE_HOME/bin:$PATH

編譯Hive源碼
下載hive源碼
此處使用maven編譯，需要下載安裝maven。

以Hive 0.13版為例
編譯hive 0.13源碼基於hadoop 0.23或更高版本
$cdhive$mvncleaninstall-Phadoop-2,dist$cdpackaging/target/apache-hive-{version}-SNAPSHOT-bin/apache-hive-{version}-SNAPSHOT-bin$lsLICENSENOTICEREADME.txtRELEASE_NOTES.txtbin/(alltheshellscripts)lib/(requiredjarfiles)conf/(configurationfiles)examples/(sampleinputandqueryfiles)hcatalog/(hcataloginstallation)scripts/(upgradescriptsforhive-metastore)
編譯hive 基於hadoop 0.20
$cdhive$antcleanpackage$cdbuild/dist#lsLICENSENOTICEREADME.txtRELEASE_NOTES.txtbin/(alltheshellscripts)lib/(requiredjarfiles)conf/(configurationfiles)examples/(sampleinputandqueryfiles)hcatalog/(hcataloginstallation)scripts/(upgradescriptsforhive-metastore)
運行hive
Hive運行依賴於hadoop，在運行hadoop之前必需先配置好hadoopHome。
export HADOOP_HOME=<hadoop-install-dir>

在hdfs上為hive創建\tmp目錄和/user/hive/warehouse(akahive.metastore.warehouse.dir) 目錄，然後你才可以運行hive。
在運行hive之前設置HiveHome。
$ export HIVE_HOME=<hive-install-dir>

在命令行窗口啟動hive
$ $HIVE_HOME/bin/hive

若執行成功，將看到類似內容如圖所示

閱讀全文

熱點內容

java返回this 發布：2025-10-20 08:28:16 瀏覽：1106

製作腳本網站發布：2025-10-20 08:17:34 瀏覽：1382

python中的init方法發布：2025-10-20 08:17:33 瀏覽：1071

圖案密碼什麼意思發布：2025-10-20 08:16:56 瀏覽：1246

怎麼清理微信視頻緩存發布：2025-10-20 08:12:37 瀏覽：1112

c語言編譯器怎麼看執行過程發布：2025-10-20 08:00:32 瀏覽：1462

郵箱如何填寫發信伺服器發布：2025-10-20 07:45:27 瀏覽：668

shell腳本入門案例發布：2025-10-20 07:44:45 瀏覽：566

怎麼上傳照片瀏覽上傳發布：2025-10-20 07:44:03 瀏覽：1241

python股票數據獲取發布：2025-10-20 07:39:44 瀏覽：1274

hive編譯模塊

與hive編譯模塊相關的資訊