預編譯查詢hive

發布時間: 2022-06-12 13:23:13

『壹』我想學習hive，請問安裝hive之前，必須安裝centos、hadoop、java這些嗎

安裝需要
java 1.6，java 1.7或更高版本。
Hadoop 2.x或更高, 1.x. Hive 0.13 版本也支持 0.20.x, 0.23.x
linux,mac,windows操作系統。以下內容適用於linux系統。
安裝打包好的hive
需要先到apache下載已打包好的hive鏡像，然後解壓開該文件
$ tar -xzvf hive-x.y.z.tar.gz

設置hive環境變數
$ cd hive-x.y.z$ export HIVE_HOME={{pwd}}

設置hive運行路徑
$ export PATH=$HIVE_HOME/bin:$PATH

編譯Hive源碼
下載hive源碼
此處使用maven編譯，需要下載安裝maven。

以Hive 0.13版為例
編譯hive 0.13源碼基於hadoop 0.23或更高版本
$cdhive$mvncleaninstall-Phadoop-2,dist$cdpackaging/target/apache-hive-{version}-SNAPSHOT-bin/apache-hive-{version}-SNAPSHOT-bin$lsLICENSENOTICEREADME.txtRELEASE_NOTES.txtbin/(alltheshellscripts)lib/(requiredjarfiles)conf/(configurationfiles)examples/(sampleinputandqueryfiles)hcatalog/(hcataloginstallation)scripts/(upgradescriptsforhive-metastore)
編譯hive 基於hadoop 0.20
$cdhive$antcleanpackage$cdbuild/dist#lsLICENSENOTICEREADME.txtRELEASE_NOTES.txtbin/(alltheshellscripts)lib/(requiredjarfiles)conf/(configurationfiles)examples/(sampleinputandqueryfiles)hcatalog/(hcataloginstallation)scripts/(upgradescriptsforhive-metastore)
運行hive
Hive運行依賴於hadoop，在運行hadoop之前必需先配置好hadoopHome。
export HADOOP_HOME=<hadoop-install-dir>

在hdfs上為hive創建\tmp目錄和/user/hive/warehouse(akahive.metastore.warehouse.dir) 目錄，然後你才可以運行hive。
在運行hive之前設置HiveHome。
$ export HIVE_HOME=<hive-install-dir>

在命令行窗口啟動hive
$ $HIVE_HOME/bin/hive

若執行成功，將看到類似內容如圖所示

『貳』 hive的Hive 體系結構

主要分為以下幾個部分：
用戶介面
用戶介面主要有三個：CLI，Client 和 WUI。其中最常用的是 CLI，Cli 啟動的時候，會同時啟動一個 Hive 副本。Client 是 Hive 的客戶端，用戶連接至 Hive Server。在啟動 Client 模式的時候，需要指出 Hive Server 所在節點，並且在該節點啟動 Hive Server。 WUI 是通過瀏覽器訪問 Hive。
元數據存儲
Hive 將元數據存儲在資料庫中，如 mysql、derby。Hive 中的元數據包括表的名字，表的列和分區及其屬性，表的屬性（是否為外部表等），表的數據所在目錄等。
解釋器、編譯器、優化器、執行器
解釋器、編譯器、優化器完成 HQL 查詢語句從詞法分析、語法分析、編譯、優化以及查詢計劃的生成。生成的查詢計劃存儲在 HDFS 中，並在隨後由 MapRece 調用執行。
Hadoop
Hive 的數據存儲在 HDFS 中，大部分的查詢由 MapRece 完成（包含 * 的查詢，比如 select * from tbl 不會生成 MapRece 任務）。

『叄』如何編譯hive_hbase-handler.jar

之前上傳了一個文檔：http://wenku..com/view/faec57fb04a1b0717fd5dd00.html?st=1你可以看看。

『肆』 Apache Hive的工作原理是什麼

Hadoop處理完全依賴於MapRece框架，這要求用戶了解Java編程的高級樣式，以便成功查詢數據。Apache Hive背後的動機是簡化查詢，並將Hadoop非結構化數據開放給公司中更廣泛的用戶群。
Hive有三個主要功能：數據匯總，查詢和分析。它支持名為HiveQL或HQL的語言表達的查詢，HQL是一種聲明性的類SQL語言，在其第一個版本中，它自動將SQL樣式的查詢轉換為在Hadoop平台上執行的MapRece。此外，HiveQL支持自定義MapRece腳本，以便查詢。
當通過Hive提交SQL查詢時，它們最初由創建會話句柄的驅動程序組件接收，通過Java資料庫連接/開放資料庫連接介面將請求轉發給編譯器，隨後轉發作業以供執行。Hive支持數據序列化/反序列化，並通過包含名為Hive-Metastore的系統目錄來提高模式設計的靈活性。

『伍』 hive的安裝配置

你可以下載一個已打包好的hive穩定版，也可以下載源碼自己build一個版本。
安裝需要 java 1.6，java 1.7或更高版本。 Hadoop 2.x或更高, 1.x. Hive 0.13 版本也支持 0.20.x, 0.23.x Linux,mac,windows操作系統。以下內容適用於linux系統。安裝打包好的hive
需要先到apache下載已打包好的hive鏡像，然後解壓開該文件 $tar-xzvfhive-x.y.z.tar.gz設置hive環境變數 $cdhive-x.y.z$exportHIVE_HOME={{pwd}}設置hive運行路徑 $exportPATH=$HIVE_HOME/bin:$PATH編譯Hive源碼
下載hive源碼
此處使用maven編譯，需要下載安裝maven。
以Hive 0.13版為例編譯hive 0.13源碼基於hadoop 0.23或更高版本
$cdhive$mvncleaninstall-Phadoop-2,dist$cdpackaging/target/apache-hive-{version}-SNAPSHOT-bin/apache-hive-{version}-SNAPSHOT-bin$lsLICENSENOTICEREADME.txtRELEASE_NOTES.txtbin/(alltheshellscripts)lib/(requiredjarfiles)conf/(configurationfiles)examples/(sampleinputandqueryfiles)hcatalog/(hcataloginstallation)scripts/(upgradescriptsforhive-metastore) 編譯hive 基於hadoop 0.20
$cdhive$antcleanpackage$cdbuild/dist#lsLICENSENOTICEREADME.txtRELEASE_NOTES.txtbin/(alltheshellscripts)lib/(requiredjarfiles)conf/(configurationfiles)examples/(sampleinputandqueryfiles)hcatalog/(hcataloginstallation)scripts/(upgradescriptsforhive-metastore) 運行hive
Hive運行依賴於hadoop，在運行hadoop之前必需先配置好hadoopHome。 exportHADOOP_HOME=<hadoop-install-dir>在hdfs上為hive創建 mp目錄和/user/hive/warehouse(akahive.metastore.warehouse.dir) 目錄，然後你才可以運行hive。
在運行hive之前設置HiveHome。 $exportHIVE_HOME=<hive-install-dir>在命令行窗口啟動hive $$HIVE_HOME/bin/hive若執行成功，將看到類似內容如圖所示

『陸』 hive批量處理配置

利用選項2, 先打通Hive對HBase指定表的全表訪問，再建立一個新的空表，把查詢出來的數據全部導入到新表當中，以後的所有數據分析操作在新表中完成。
說干就干，讓我們試一個簡單的例子。
首先在HBase裡面建一個表，名為 student，包含 id 和 name 兩個column.
hbase shell
create 'student', 'id', 'name'
向表中插入兩行數據
put 'student', 'row1', 'id:val', '1'
put 'student', 'row1', 'name:val', 'Tony'
put 'student', 'row2', 'id:val', '2'
put 'student', 'row2', 'name:val', 'Mike'
注意：在插入數據的時候一定要指定column (如id:val, name:value) 直接使用column family (如 id, name) 去存數據會導致後面Hive 建表的時候有問題。
掃描此表，確定數據已經插入

『柒』 Hive是什麼

此外，hive也支持熟悉map-rece的開發者使用map-rece程序對數據做更加復雜的分析。 hive可以很好的結合thrift和控制分隔符，也支持用戶自定義分隔符。 hive基於hadoop，hadoop是批處理系統，不能保存低延遲，因此，hive的查詢也不能保證低延遲。 hive的工作模式是：提交一個任務，等到任務結束時被通知，而不是實時查詢。相對應的是，類似於Oracle這樣的系統當運行於小數據集的時候，響應非常快，可當處理的數據集非常大的時候，可能需要數小時。需要說明的是，hive即使在很小的數據集上運行，也可能需要數分鍾才能完成。低延遲不是hive追求的首要目標。

『捌』怎麼查看hive支持的jdk版本

在這里我說一個我原來的解決辦法：

在eclipse裡面寫了一個簡單的tpch查詢語句，但是一直連接不上hiveserver2，一直顯示httpClient或者Cookie之類的找不到類的錯誤，但是所有相關的jar都已經打進去了；
折騰了很久之後，把eclipse裡面的jdk從1.8換成了1.7，同時把編譯器的版本從1.8降到1.7，再次執行就可以完美連接了；
這在本地行得通，但我需要把本地的程序打成jar包放到遠程節點上去跑，遠程節點只有命令行沒有eclipse，節點上編譯的所有的東西都是基於jdk1.8的，然後怎麼辦呢；
發現linux下面可以暫時更改某一個shell裡面的環境變數，在關閉shell後環境變數就會恢復原樣；
把打好的jar包放到節點上之後，打開一個新的shell，輸入：
export JAVA_HOME=下載的1.7版本的jdk的路徑
export PATH=下載的1.7版本的jdk的路徑/bin
然後再用java指令在這個shell裡面運行打好的jar包，就好啦。

『玖』 hive自定義udf函數，在udf函數內怎麼讀取hive表數據

最近感受了hive的udf函數的強大威力了，不僅可以使用很多已經有的udf函數，還可以自己定義符合業務場景的udf函數，下面就說一下如何寫udf/udaf/udtf函數，算是一個入門介紹吧。
First, you need to create a new class that extends UDF, with one or more methods named evaluate.
package com.example.hive.udf;

import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.io.Text;

public final class Lower extends UDF {
public Text evaluate(final Text s) {
if (s == null) { return null; }
return new Text(s.toString().toLowerCase());
}
}

After compiling your code to a jar, you need to add this to the hive classpath.
add jar my_jar.jar;

Once hive is started up with your jars in the classpath, the final step is to register your function
create temporary function my_lower as 'com.example.hive.udf.Lower';

上面主要描述了實現一個udf的過程，首先自然是實現一個UDF函數，然後編譯為jar並加入到hive的classpath中，最後創建一個臨時變數名字讓hive中調用。轉載，僅供參考。

『拾』程序中的Hive具體是干什麼用的呢

Hive是基於Hadoop平台的數倉工具，具有海量數據存儲、水平可擴展、離線批量處理的優點，解決了傳統關系型數倉不能支持海量數據存儲、水平可擴展性差等問題，但是由於Hive數據存儲和數據處理是依賴於HDFS和MapRece，因此在Hive進行數據離線批量處理時，需將查詢語言先轉換成MR任務，由MR批量處理返回結果，所以Hive沒法滿足數據實時查詢分析的需求。
Hive是由FaceBook研發並開源，當時FaceBook使用Oracle作為數倉，由於數據量越來越大，Oracle數倉性能越來越差，沒法實現海量數據的離線批量分析，因此基於Hadoop研發Hive，並開源給Apacha。
由於Hive不能實現數據實時查詢交互，Hbase可提供實時在線查詢能力，因此Hive和Hbase形成了良性互補。Hbase因為其海量數據存儲、水平擴展、批量數據處理等優點，也得到了廣泛應用。
Pig與HIVE工具類似，都可以用類sql語言對數據進行處理。但是他們應用場景有區別，Pig用於數據倉庫數據的ETL，HIVE用於數倉數據分析。
從架構圖當中，可看出Hive並沒有完成數據的存儲和處理，它是由HDFS完成數據存儲，MR完成數據處理，其只是提供了用戶查詢語言的能力。Hive支持類sql語言，這種SQL稱為Hivesql。用戶可用Hivesql語言查詢，其驅動可將Hivesql語言轉換成MR任務，完成數據處理。
【Hive的訪問介面】
CLI：是hive提供的命令行工具
HWI：是Hive的web訪問介面
JDBC/ODBC：是兩種的標準的應用程序編程訪問介面
Thrift Server：提供異構語言，進行遠程RPC調用Hive的能力。
因此Hiv具備豐富的訪問介面能力，幾乎能滿足各種開發應用場景需求。
【Driver】
是HIVE比較核心的驅動模塊，包含編譯器、優化器、執行器，職責為把用戶輸入的Hivesql轉換成MR數據處理任務
【Metastore】
是HIVE的元數據存儲模塊，數據的訪問和查找，必須要先訪問元數據。Hive中的元數據一般使用單獨的關系型資料庫存儲，常用的是Mysql，為了確保高可用，Mysql元資料庫還需主備部署。
架構圖上面Karmasphere、Hue、Qubole也是訪問HIVE的工具，其中Qubole可遠程訪問HIVE，相當於HIVE作為一種公有雲服務，用戶可通過互聯網訪問Hive服務。
Hive在使用過程中出現了一些不穩定問題，由此發展出了Hive HA機制，

閱讀全文

熱點內容

內置存儲卡可以拆嗎發布：2025-05-18 04:16:35 瀏覽：335

編譯原理課時設置發布：2025-05-18 04:13:28 瀏覽：378

linux中進入ip地址伺服器發布：2025-05-18 04:11:21 瀏覽：612

java用什麼軟體寫發布：2025-05-18 03:56:19 瀏覽：32

linux配置vim編譯c 發布：2025-05-18 03:55:07 瀏覽：107

砸百鬼腳本發布：2025-05-18 03:53:34 瀏覽：944

安卓手機如何拍視頻和蘋果一樣發布：2025-05-18 03:40:47 瀏覽：739

為什麼安卓手機連不上蘋果7熱點發布：2025-05-18 03:40:13 瀏覽：803

網卡訪問發布：2025-05-18 03:35:04 瀏覽：511

接收和發送伺服器地址發布：2025-05-18 03:33:48 瀏覽：371

預編譯查詢hive

與預編譯查詢hive相關的資訊