sparksqljar

發布時間: 2024-04-12 21:24:14

A. Sparksql同步Hbase數據到Hive表

spark 2.3.0
hive 3.0.0
hbase 2.0.0

常規操作 hbase數據同步到hive是螞搭通過再hive端建立hbase的映射表。
但是由於集群組件問題，建立的棗物笑映射表不能進行
insert into A select * from hbase映射表
操作。報錯！
org.apache.hadoop.hbase.client.RetriesExhaustedException: Can't get the location for replica 0
at org.apache.hadoop.hbase.client..getRegionLocations(.java:332)

spark讀取hbase數據形成RDD，構建schma信息，形成DF
通過sparkSQL 將df數據寫入到指定的hive表格中。

hadoop本地環境版本一定要與依賴包版本保持一直，不然報如下錯誤
java.lang.IllegalArgumentException: Unrecognized Hadoop major version number: 3.1.1

hbase 1.X與2.X有很大差距，所以再看案例參考是一定要結合自己的hbase版本。
筆者程序編譯中遇到
Cannot Resolve symbol TableInputFormat HBase找不到TableInputFormat
因為：新版本2.1.X版本的HBASE又把maprece.TableInputFormat單獨抽取出來了
需要導入依賴
<dependency>
<groupId>org.apache.hbase</groupId>
<artifactId>hbase-maprece</artifactId>
<version>${hbase.version}</version>
</dependency>

一定要把hbase相關凳含的包都cp 到spark的jars文件下面。然後重啟spark服務。
不然你會遇到此類錯誤
Class org.apache.hadoop.hive.hbase.HBaseSerDe not found

或者
java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/HBaseConfiguration
這些都是缺少jar包的表現。

B. spark sql怎麼處理hive的null

前面已經有篇文章介紹如何編譯包含hive的spark-assembly.jar了,不清楚的可以翻看一下前面的文章。
cloudera manager裝好的spark,直接執行spark-shell進入命令行後，寫入如下語句：
val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc)

你會發現沒法執行通過，因為cm裝的原生的spark是不支持spark hql的，我們需要手動進行一些調整：
第一步，將編譯好的包含hive的JAR包上傳到hdfs上配置的默認的spark的sharelib目錄：/user/spark/share/lib

第二步：在你要運行spark-shell腳本的節點上的/opt/cloudera/parcels/CDH-
5.3.0-1.cdh5.3.0.p0.30/lib/spark/lib/目錄下面，下載這個jar到這個目錄：hadoop fs -get
hdfs://n1:8020/user/spark/share/lib/spark-assembly-with-hive-maven.jar（具
體路徑替換成你自己的）。然後這個目錄下面原來會有個軟鏈接spark-assembly.jar指向的是spark-assembly-1.2.0-
cdh5.3.0-hadoop2.5.0-cdh5.3.0.jar，我們把這個軟鏈接刪除掉重新創建一個同名的軟鏈接：ln -s
spark-assembly-with-hive-maven.jar
spark-assembly.jar，指向我們剛下載下來的那個JAR包，這個JAR包會在啟動spark-shell腳本時裝載到driver
program的classpath中去的，sparkContext也是在driver中創建出來的，所以需要將我們編譯的JAR包替換掉原來的
spark-assembly.jar包，這樣在啟動spark-shell的時候，包含hive的spark-assembly就被裝載到
classpath中去了。

C. sparkSQL和spark有什麼區別

Spark為結構化數據處理引入了一個稱為Spark SQL的編程模塊。簡而言之，sparkSQL是Spark的前身，是在Hadoop發展過程中，為了給熟悉RDBMS但又不理解MapRece的技術人員提供快速上手的工具。
sparkSQL提供了一個稱為DataFrame（數據框）的編程抽象，DF的底層仍然是RDD，並且可以充當分布式SQL查詢引擎。

SparkSql有哪些特點呢？

1）引入了新的RDD類型SchemaRDD，可以像傳統資料庫定義表一樣來定義SchemaRDD。

2）在應用程序中可以混合使用不同來源的數據，如可以將來自HiveQL的數據和來自SQL的數據進行Join操作。

3）內嵌了查詢優化框架，在把SQL解析成邏輯執行計劃之後，最後變成RDD的計算。

D. spark從hive數據倉庫中讀取的數據可以使用sparksql進行查詢嗎

1、為了讓Spark能夠連接到Hive的原有數據倉庫，我們需要將Hive中的hive-site.xml文件拷貝到Spark的conf目錄下，這樣就可以通過這個配置文件找到Hive的元數據以及數據存放。
在這里由於我的Spark是自動安裝和部署的，因此需要知道CDH將hive-site.xml放在哪裡。經過摸索。該文件默認所在的路徑是：/etc/hive/conf 下。
同理，spark的conf也是在/etc/spark/conf。
此時，如上所述，將對應的hive-site.xml拷貝到spark/conf目錄下即可
如果Hive的元數據存放在Mysql中，我們還需要准備好Mysql相關驅動，比如：mysql-connector-java-5.1.22-bin.jar。
2、編寫測試代碼
val conf=new SparkConf().setAppName("Spark-Hive").setMaster("local")
val sc=new SparkContext(conf)

//create hivecontext
val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)

sqlContext.sql("CREATE TABLE IF NOT EXISTS src (key INT, value STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' ") //這里需要注意數據的間隔符

sqlContext.sql("LOAD DATA INPATH '/user/liujiyu/spark/kv1.txt' INTO TABLE src ");

sqlContext.sql(" SELECT * FROM jn1").collect().foreach(println)

sc.stop()

3、下面列舉一下出現的問題：
（1）如果沒有將hive-site.xml拷貝到spark/conf目錄下，會出現：

分析：從錯誤提示上面就知道，spark無法知道hive的元數據的位置，所以就無法實例化對應的client。
解決的辦法就是必須將hive-site.xml拷貝到spark/conf目錄下
（2）測試代碼中沒有加sc.stop會出現如下錯誤：
ERROR scheler.LiveListenerBus: Listener EventLoggingListener threw an exception
java.lang.reflect.InvocationTargetException
在代碼最後一行添加sc.stop()解決了該問題。

閱讀全文

熱點內容

隨機啟動腳本發布：2025-07-05 16:10:30 瀏覽：515

微博資料庫設計發布：2025-07-05 15:30:55 瀏覽：19

linux485 發布：2025-07-05 14:38:28 瀏覽：299

php用的軟體發布：2025-07-05 14:06:22 瀏覽：750

沒有許可權訪問計算機發布：2025-07-05 13:29:11 瀏覽：425

javaweb開發教程視頻教程發布：2025-07-05 13:24:41 瀏覽：684

康師傅控流腳本破解發布：2025-07-05 13:17:27 瀏覽：233

java的開發流程發布：2025-07-05 12:45:11 瀏覽：678

怎麼看內存卡配置發布：2025-07-05 12:29:19 瀏覽：277

訪問學者英文個人簡歷發布：2025-07-05 12:29:17 瀏覽：828

sparksqljar

與sparksqljar相關的資訊