maven编译spark

发布时间: 2023-04-28 15:08:05

Ⅰ 如何为Sparksql添加hive中支持的而SparkSQL暂未支持的命令

前面已经有篇文章介绍如何编译包含hive的spark-assembly.jar了,不清楚的可以翻看一下前面的文章。
cloudera manager装好的spark,直接执行spark-shell进入命令行后，写入如下语句：
val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc)

你会发现没法执行通过，因为cm装的原生的spark是不支持spark hql的，我们需要手动进行一些调整：
第一步，将编译好的包含hive的JAR包上传到hdfs上配置的默认的spark的sharelib目录：/user/spark/share/lib

第二步：在你要运行spark-shell脚本的节点上的明局帆/opt/cloudera/parcels/CDH-
5.3.0-1.cdh5.3.0.p0.30/lib/spark/lib/目录下面，下载这个jar到这个目录：hadoop fs -get
hdfs://n1:8020/user/spark/share/lib/spark-assembly-with-hive-maven.jar（具
体路径替换成你自己的）。然后这个目录下面原来会有个软链接spark-assembly.jar指向的是spark-assembly-1.2.0-
cdh5.3.0-hadoop2.5.0-cdh5.3.0.jar，我们把这个软链接删除掉重新创建一个同名的软链接：ln -s
spark-assembly-with-hive-maven.jar
spark-assembly.jar，指向我们刚激雹下载下来的那个JAR包，这个JAR包会在启动spark-shell脚本时装载到driver
program的classpath中去的，sparkContext也是在driver中创建出来的，所以需要将我们编译的JAR包替换掉原来的
spark-assembly.jar包，这样在启动spark-shell的时候，包含hive的spark-assembly就被装载到
classpath中去腊碧了。

Ⅱ spark thrift server 与网易 kyuubi thrift server

thrift server可以实现通过jdbc， beeline等工具，实现连接到spark集群，并提交sql查询的机制。

默认情况下，cdh安装的spark没有包含thrift server模块，因此我们需要重新编译spark。

另外，为了不影响cdh自带的spark，而且spark目前都是基于yarn运行的，本身也没有什么独立的服务部署（除了history sever）。

所以，在一个集群中，可以部署安装多个版本的spark。

我们使用源码编译的spark 2.4.0（其中hive的版本是1.2.1）

cdh集成的spark版本和Hive版本如下：

使用jdk1.8
修改spark提供的mvn，使用自行安装的maven 3.8.1

使用make-distribution.sh可以帮助与我们编译之后打包成tgz文件

修改pom.xml文件的配置如下。

最后，执行编译命令如下：

这样打出的包，就含有thrift server的jar包了。

最终打包文件，根目录下。

之后就是解压到其他目录下后即可。

将hive-site.xml的文件连接过来，这样spark就可以读取hive的表了。

为了确保spark提交到yarn上运行，需要配置

cp spark-defaults.conf.template spar-defaults.conf

另外，可以在spark-env.sh中设置环境变量。

HADOOP_CONF_DIR

环境变量，也可以在/etc/profile中设置

启动日志可以查看，注意下端口占用问题，如下。

启动时候，使用beeline工具连接上，主要这里不用使用cdh默认安装hive提供的beeline工具，应为版本太高。

使用编译后spark生成beeline工具

参考beeline使用教程。

https://github.com/apache/incubator-kyuubi

kyuubi是基于thrift sever二次开发，在系能和安全上优于thrift server。

鉴于目前hive的版本是2.1，而最新的kyuubi的hive是2.3，所以采用前天版本的kyuubi，采用0.7版本，保证hive的版本小于当前集群中的hive版本。

使用build目录下的dist脚本进行编译和打包。

编译成功后，会在更目录下出现tar.gz的压缩文件，如上图。

之后解压到目录下。

配置bin/kyuubi-env.sh脚本，设置spark路径

执行bin/start-kyuubi.sh命令即可。

访问的方式同样采用beelin，注意使用上面章节的beeline工具。

访问后，可以通过beeline访问到hive的表（在spark中已经配置了hive-site.xml）

!connect jdbc: hive2://xxxx:10009 即可。

Ⅲ Hudi + Spark3入门第一课

欢迎访问我的博客

这两个包不用自己编译，可以从maven 中央仓库获取,（页面很不好找，hudi得把仓库类目梳理一下了）贴兆蚂乎一下。

使用上述预编译的包，就省略族悉自己编译的过程了。

官网发布的支持矩阵：

Spark 3 Support Matrix

可物毕以看到hudi 0.10版本默认构建出来是spark3.1的，也可以构建spark3.0的。

Ⅳ 运行环境jre版本和jar包编译版本不一致导致：Unsupported major.minor version 52.0

我在本地使用 Intellij Idea 打包了一个 spark 的程序 jar 包，放到linux集群上运行，报错信息是： Unsupported major.minor version 52.0

本机系统 -> windows10 开发工具 -> Intellij Idea 构建工具 -> maven

集群系统 -> Linux jre -> java(TM) SE Runtime Environment (build 1.7.0_80-b15)`

根据报错 log 可以断定的是由于我本地编译打包所使用的 jdk 版本和 linux 集群的 jre 版本不一致导致的。stanford parser 和 jdk 版本对应关系为：

可以推断出是由于我打包编译时所使用的 jdk 版本是 jdk8，而集群的 jre 是7，才导致的问题。

maven 项目会用 maven-compiler-plugin 默认的 jdk 版本来进行编译，如果不指明版本就容易出现版本不匹配的问题，可能导致编译不通过的问题。解决办法：在 pom 文件中配置 maven-compiler-plugin 插件。

方式一：

方式二：

如竖首果使用 scala 编写 spark 的程序，在编译打包时候要注意 scala 的版本号和 jdk 版本的对应关系，同时也要考虑集群上 jre 的版本。比如我的集群上所使用的 jre 的版本号为 7，那么本机打包编译的 jdk 版本必须旅搜为 7 ，那么 scala 版本必须为 2.12 版本以下。

Intellij Idea 设置“开发”运拆纤历行时所用的 jdk 版本的几个地方：

如果上图中 Intellij Idea 的开发运行 jdk 版本配置错误，在开发运行编译的时候会报： Error:java: 无效的源发行版: xx

Ⅳ spark1.3编译出错，求解决方法

把 pom.xml文件中的scalastyle的相关改成false
<groupId>org.scalastyle</groupId>
<artifactId>scalastyle-maven-plugin</artifactId>
<version>0.4.0</version>
<configuration>
<verbose>false</verbose>
<failOnViolation>false</failOnViolation>
<includeTestSourceDirectory>false</includeTestSourceDirectory>
<failOnWarning>false</failOnWarning>

Ⅵ spark远程debug之调试spark on yarn 程序

简介
由于spark有多种运行模式，远程调试的时候，虽然大体步骤相同，但是还是有小部分需要注意的地方，这里记录一下调试运行在spark on yarn模式下的程序。

环境准备
需要完好的Hadoop，spark集群，以便于提交spark on yarn程序。我这里是基于CDH的环境

步骤
1.随便写个spark程序，比大颂如序列化一个集合，然后求和。然后使用maven打包，上传至滚搜郑集群漏缺。可以先提交运行一次，确保可以运行成功。

[root@kjtlxsvr5 bin]# ./spark-submit --class cn.spark.study.core.ParallelizeCollection --master yarn-cluster --num-executors 3 --executor-cores 2 --executor-memory 1G --driver-java-options "-Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=y,address=8787" /home/spark-study-scala-0.0.1-SNAPSHOT-jar-with-dependencies.jar

现在有两个办法可以解决这个问题。
第一个办法是节点少的话，通过修改上面IDEA远程主机地址来一个一个试。
第二办法可以精确知道ApplicationMaster在哪里：
①通过CDH进入yarn的应用程序界面

②然后点击进入该程序的详细信息界面，如下图就可以知道Applicationmaster在哪台NodeManager上：

③可以去该节点查看进程，的确有一个ApplicationMaster，然后在IDEA中修改为该远程主机地址，开始debug程序看源码吧！

Ⅶ maven打包${env}没有值

打包路径下不能存在中文和空格

使用历芦斗<scope>provided</scope>将依赖不进行打包，使用平台提供的依赖

同时通过参数：

--conf spark.executor.userClassPathFirst=true --conf spark.driver.userClassPathFirst=true

指定driver + executor均使用用户jar这个错都是在MAVEN插件在编译的时候报的，所以问题一定是出在编译的环节上。

这个时候就要好好检查MAVEN的编译配置，

1、看看配置肢磨里的编译版本和本机环境上配置的java版本是否一致，有时候报错的类有可能是引用了另外另外一个MAVEN模块的代码，也要看看那个模块的版本配置编码是否一致。但这并不是哗磨一定的，有时候不一致也不会有问题，但这是一个可以注意的点。

Ⅷ maven中${spark.version}是什么意思

你好，晌则旅很高兴回答你的问题。

这个${spark.version}你可以理解为一个变量，这里是要使用这个变量的值。

在使用这个变量之前需要对他进宴凳行一个赋值，类似下图。

如果有帮助到你，请点击采纳盯橡。

我解答的大部分都是软件开发新人遇到的问题，如果有兴趣，可以关注我。

Ⅸ intellij idea maven 开发spark环境搭建出现这个错误

在Spark快速入门指南 – Spark安装与基础使用中介绍了Spark的安装与配置，在那里还介绍了使用spark-submit提交应用，不过不能使用vim来开发Spark应用，放着IDE的方便不用。这里介绍使用Intellij Idea搭建Spark的开发环境。
1、Intellij Idea的安装
由于Spark安装在Ubuntu环境中，这里的Idea也安装在Ubuntu中。首先是下载，到官网下载即可。下载完后解压到待安装的目录：

sudo tar -zxvf ideaIU-2016.1.tar.gz -C /usr/local/

我解压在了/usr/local目录下，然后更改文件夹名：

mv ideaIU-2016.1 idea
然后修改文件的用户和用户组：

sudo chown -R hadoop:hadoop idea
这里的hadoop是我的用户名和组名。这样idea就安装成功了。

为了启动idea，进入idea/bin目录，执行里面的idea.sh：

bin/idea.sh
这样就可以启动idea。不过这样不方便，可以在桌面新建文件idea.desktop，输入如下内容：

[Desktop Entry]
Name=IdeaIU
Comment=Rayn-IDEA-IU
Exec=/usr/local/idea/bin/idea.sh
Icon=/usr/local/idea/bin/idea.png
Terminal=false
Type=Application
Categories=Developer;
这样就创建了一个桌面快捷方式。

2、maven的安装与配置
Maven 是一个项目管理和构建自动化工具。作为一个程序员，都有过为了使用某个功能而在项目中添加jar包的经历，使用的框架多了，需要添加的jar包也多，而梁仿maven能够自动为我们添加需要的jar包。首先在maven官网上下载maven：
下载之后在Downloads目录下有如下文件：

liu@Binja:~/Downloads$ ls
apache-maven-3.3.9-bin.tar.gz
解压到待安装的目录：

liu@Binja:~/Downloads$ sudo tar -zxvf apache-maven-3.3.9-bin.tar.gz -C /usr/local/
同样，修改文件夹名和用户名：

liu@Binja:/usr/local$ sudo mv apache-maven-3.3.9/ maven
liu@Binja:/usr/local$ sudo chown -R liu:liu maven
liu@Binja:/usr/local$ ll maven
total 52
drwxr-xr-x 6 liu liu 4096 3月 28 20:24 ./
drwxr-xr-x 12 root root 4096 3月 28 20:26 ../
drwxr-xr-x 2 liu liu 4096 3月 28 20:24 bin/
drwxr-xr-x 2 liu liu 4096 3月 28 20:24 boot/
drwxr-xr-x 3 liu liu 4096 11月 11 00:38 conf/
drwxr-xr-x 3 liu liu 4096 3月 28 20:24 lib/
-rw-r--r-- 1 liu liu 19335 11月 11 00:44 LICENSE
-rw-r--r-- 1 liu liu 182 11月 11 00:44 NOTICE
-rw-r--r-- 1 liu liu 2541 11月 11 00:38 README.txt
liu@Binja:/usr/local$
然后将maven添加到环境变量中：

sudo vim ~/.bashrc
在最后添加下面的内橡拦纤容：

export PATH=$PATH:/usr/local/maven/bin
使更改生效：

liu@Binja:/usr/local$ source ~/.bashrc
这样衡亏maven就安装好了。

3、用刚安装的maven配置idea
起始idea自带了maven，这里配置自己安装的maven。
一次选择File->Setting->Build,Execution,Deployment->Build Tools->Maven，如下图：

在右侧里的Maven home directory里设置Maven的安装目录，就我这里是/usr/local/maven，在User settings file里设置Mavne的配置文件，我这里使用默认的文件，在Local repository里设置本地包的管理仓库，选择右侧的Override后，可以自定义自己的仓库目录，以后Maven自动下载的包就会存放在这里。
单击OK后maven就配置完了。然后就可以创建一个maven项目。
4、创建maven项目
依次选择File->New->New Project，出现如下界面：

左侧可以选择项目的类型，这里选择Maven，右侧可以选择是否使用模板，勾选上面的Create from archetype后，就可以在下面选择项目模板，这里选择Scala的模板。
一路next之后，这里填一下groupID和artifactID，名字随便取：

然后一路next，填写上项目的名字，OK就可以了。
这样新项目就创建成功了，新项目的文件结构如下图：

其中的pom.xml就是配置我们项目的依赖包的。src是项目存放代码的目录，下面有两个结构相同的目录main和test，其中我们在main目录下编写代码，test编写测试代码，这里先不使用测试，可以将test目录删除。右侧展示的就是pom.xml文件的内容：

勾选右上角的Enable Auto-Import，这样Idea就会自动下载项目所需的依赖包。还要注意中间的Scala版本，选择自己使用的版本。

阅读全文

热点内容

java返回this 发布：2025-10-20 08:28:16 浏览：725

制作脚本网站发布：2025-10-20 08:17:34 浏览：990

python中的init方法发布：2025-10-20 08:17:33 浏览：699

图案密码什么意思发布：2025-10-20 08:16:56 浏览：855

怎么清理微信视频缓存发布：2025-10-20 08:12:37 浏览：756

c语言编译器怎么看执行过程发布：2025-10-20 08:00:32 浏览：1097

邮箱如何填写发信服务器发布：2025-10-20 07:45:27 浏览：329

shell脚本入门案例发布：2025-10-20 07:44:45 浏览：205

怎么上传照片浏览上传发布：2025-10-20 07:44:03 浏览：895

python股票数据获取发布：2025-10-20 07:39:44 浏览：855

maven编译spark

与maven编译spark相关的资讯