当前位置:首页 » 编程软件 » maven编译spark

maven编译spark

发布时间: 2023-04-28 15:08:05

Ⅰ 如何为Sparksql添加hive中支持的而SparkSQL暂未支持的命令

前面已经有篇文章介绍如何编译包含hive的spark-assembly.jar了,不清楚的可以翻看一下前面的文章。
cloudera manager装好的spark,直接执行spark-shell进入命令行后,写入如下语句:
val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc)

你会发现没法执行通过,因为cm装的原生的spark是不支持spark hql的,我们需要手动进行一些调整:
第一步,将编译好的包含hive的JAR包上传到hdfs上配置的默认的spark的sharelib目录:/user/spark/share/lib


第二步:在你要运行spark-shell脚本的节点上的明局帆/opt/cloudera/parcels/CDH-
5.3.0-1.cdh5.3.0.p0.30/lib/spark/lib/目录下面,下载这个jar到这个目录:hadoop fs -get
hdfs://n1:8020/user/spark/share/lib/spark-assembly-with-hive-maven.jar(具
体路径替换成你自己的)。然后这个目录下面原来会有个软链接spark-assembly.jar指向的是spark-assembly-1.2.0-
cdh5.3.0-hadoop2.5.0-cdh5.3.0.jar,我们把这个软链接删除掉重新创建一个同名的软链接:ln -s
spark-assembly-with-hive-maven.jar
spark-assembly.jar,指向我们刚激雹下载下来的那个JAR包,这个JAR包会在启动spark-shell脚本时装载到driver
program的classpath中去的,sparkContext也是在driver中创建出来的,所以需要将我们编译的JAR包替换掉原来的
spark-assembly.jar包,这样在启动spark-shell的时候,包含hive的spark-assembly就被装载到
classpath中去腊碧了。

Ⅱ spark thrift server 与 网易 kyuubi thrift server

thrift server可以实现通过jdbc, beeline等工具,实现连接到spark集群,并提交sql查询的机制。

默认情况下,cdh安装的spark没有包含thrift server模块,因此我们需要重新编译spark。

另外,为了不影响cdh自带的spark,而且spark目前都是基于yarn运行的,本身也没有什么独立的服务部署(除了history sever)。

所以,在一个集群中,可以部署安装多个版本的spark。

我们使用源码编译的spark 2.4.0(其中hive的版本是1.2.1)

cdh集成的spark版本和Hive版本如下:

使用jdk1.8
修改spark提供的mvn,使用自行安装的maven 3.8.1

使用make-distribution.sh可以帮助与我们编译之后打包成tgz文件

修改pom.xml文件的配置如下。

最后,执行编译命令如下:

这样打出的包,就含有thrift server的jar包了。

最终打包文件,根目录下。

之后就是解压到其他目录下后即可。

将hive-site.xml的文件连接过来,这样spark就可以读取hive的表了。

为了确保spark提交到yarn上运行,需要配置

cp spark-defaults.conf.template spar-defaults.conf

另外,可以在spark-env.sh中设置环境变量。

HADOOP_CONF_DIR

环境变量,也可以在/etc/profile中设置

启动日志可以查看,注意下端口占用问题,如下。

启动时候,使用beeline工具连接上,主要这里不用使用cdh默认安装hive提供的beeline工具,应为版本太高。

使用编译后spark生成beeline工具

参考beeline使用教程。

https://github.com/apache/incubator-kyuubi

kyuubi是基于thrift sever二次开发,在系能和安全上优于thrift server。

鉴于目前hive的版本是2.1,而最新的kyuubi的hive是2.3,所以采用前天版本的kyuubi,采用0.7版本,保证hive的版本小于当前集群中的hive版本。

使用build目录下的dist脚本进行编译和打包。

编译成功后,会在更目录下出现tar.gz的压缩文件,如上图。

之后解压到目录下。

配置bin/kyuubi-env.sh脚本,设置spark路径

执行bin/start-kyuubi.sh命令即可。

访问的方式同样采用beelin,注意使用上面章节的beeline工具。

访问后,可以通过beeline访问到hive的表(在spark中已经配置了hive-site.xml)

!connect jdbc: hive2://xxxx:10009 即可。

Ⅲ Hudi + Spark3入门第一课

欢迎访问 我的博客

这两个包不用自己编译,可以从maven 中央仓库 获取,(页面很不好找,hudi得把仓库类目梳理一下了)贴兆蚂乎一下。

使用上述预编译的包,就省略族悉自己编译的过程了。

官网发布的支持矩阵:

Spark 3 Support Matrix

可物毕以看到hudi 0.10版本默认构建出来是spark3.1的,也可以构建spark3.0的。

Ⅳ 运行环境jre版本和jar包编译版本不一致导致:Unsupported major.minor version 52.0

我在本地使用 Intellij Idea 打包了一个 spark 的程序 jar 包,放到linux集群上运行,报错信息是: Unsupported major.minor version 52.0

本机系统 -> windows10 开发工具 -> Intellij Idea 构建工具 -> maven

集群系统 -> Linux jre -> java(TM) SE Runtime Environment (build 1.7.0_80-b15)`

根据报错 log 可以断定的是由于我本地编译打包所使用的 jdk 版本和 linux 集群的 jre 版本不一致导致的。stanford parser 和 jdk 版本对应关系为:

可以推断出是由于我打包编译时所使用的 jdk 版本是 jdk8,而集群的 jre 是7,才导致的问题。

maven 项目会用 maven-compiler-plugin 默认的 jdk 版本来进行编译,如果不指明版本就容易出现版本不匹配的问题,可能导致编译不通过的问题。解决办法:在 pom 文件中配置 maven-compiler-plugin 插件。

方式一:

方式二:

如竖首果使用 scala 编写 spark 的程序,在编译打包时候要注意 scala 的版本号和 jdk 版本的对应关系,同时也要考虑集群上 jre 的版本。比如我的集群上所使用的 jre 的版本号为 7,那么本机打包编译的 jdk 版本必须旅搜为 7 ,那么 scala 版本必须为 2.12 版本以下。

Intellij Idea 设置“开发”运拆纤历行时所用的 jdk 版本的几个地方:

如果上图中 Intellij Idea 的开发运行 jdk 版本配置错误,在开发运行编译的时候会报: Error:java: 无效的源发行版: xx

Ⅳ spark1.3编译出错,求解决方法

把 pom.xml文件中的scalastyle的相关改成false
<groupId>org.scalastyle</groupId>
<artifactId>scalastyle-maven-plugin</artifactId>
<version>0.4.0</version>
<configuration>
<verbose>false</verbose>
<failOnViolation>false</failOnViolation>
<includeTestSourceDirectory>false</includeTestSourceDirectory>
<failOnWarning>false</failOnWarning>

Ⅵ spark远程debug之调试spark on yarn 程序

简介
由于spark有多种运行模式,远程调试的时候,虽然大体步骤相同,但是还是有小部分需要注意的地方,这里记录一下调试运行在spark on yarn模式下的程序。

环境准备
需要完好的Hadoop,spark集群,以便于提交spark on yarn程序。我这里是基于CDH的环境

步骤
1.随便写个spark程序,比大颂如序列化一个集合,然后求和。然后使用maven打包,上传至滚搜郑集群漏缺。可以先提交运行一次,确保可以运行成功。

[root@kjtlxsvr5 bin]# ./spark-submit --class cn.spark.study.core.ParallelizeCollection --master yarn-cluster --num-executors 3 --executor-cores 2 --executor-memory 1G --driver-java-options "-Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=y,address=8787" /home/spark-study-scala-0.0.1-SNAPSHOT-jar-with-dependencies.jar

现在有两个办法可以解决这个问题。
第一个办法是节点少的话,通过修改上面IDEA远程主机地址来一个一个试。
第二办法可以精确知道ApplicationMaster在哪里:
①通过CDH进入yarn的应用程序界面

②然后点击进入该程序的详细信息界面,如下图就可以知道Applicationmaster在哪台NodeManager上:

③可以去该节点查看进程,的确有一个ApplicationMaster,然后在IDEA中修改为该远程主机地址,开始debug程序看源码吧!

Ⅶ maven打包${env}没有值

打包路径下不能存在中文和空格

使用历芦斗<scope>provided</scope>将依赖不进行打包,使用平台提供的依赖

同时通过参数:

--conf spark.executor.userClassPathFirst=true --conf spark.driver.userClassPathFirst=true

指定driver + executor均使用用户jar这个错都是在MAVEN插件在编译的时候报的,所以问题一定是出在编译的环节上。

这个时候就要好好检查MAVEN的编译配置,

1、看看配置肢磨里的编译版本和本机环境上配置的java版本是否一致,有时候报错的类有可能是引用了另外另外一个MAVEN模块的代码,也要看看那个模块的版本配置编码是否一致。但这并不是哗磨一定的,有时候不一致也不会有问题,但这是一个可以注意的点。

Ⅷ maven中${spark.version}是什么意思

你好,晌则旅很高兴回答你的问题。

这个${spark.version}你可以理解为一个变量,这里是要使用这个变量的值。

在使用这个变量之前需要对他进宴凳行一个赋值,类似下图。

如果有帮助到你,请点击采纳盯橡。

我解答的大部分都是软件开发新人遇到的问题,如果有兴趣,可以关注我。

Ⅸ intellij idea maven 开发spark环境搭建出现这个错误

在Spark快速入门指南 – Spark安装与基础使用中介绍了Spark的安装与配置,在那里还介绍了使用spark-submit提交应用,不过不能使用vim来开发Spark应用,放着IDE的方便不用。这里介绍使用Intellij Idea搭建Spark的开发环境。
1、Intellij Idea的安装
由于Spark安装在Ubuntu环境中,这里的Idea也安装在Ubuntu中。首先是下载,到官网下载即可。下载完后解压到待安装的目录:

sudo tar -zxvf ideaIU-2016.1.tar.gz -C /usr/local/

我解压在了/usr/local目录下,然后更改文件夹名:

mv ideaIU-2016.1 idea
然后修改文件的用户和用户组:

sudo chown -R hadoop:hadoop idea
这里的hadoop是我的用户名和组名。这样idea就安装成功了。

为了启动idea,进入idea/bin目录,执行里面的idea.sh:

bin/idea.sh
这样就可以启动idea。不过这样不方便,可以在桌面新建文件idea.desktop,输入如下内容:

[Desktop Entry]
Name=IdeaIU
Comment=Rayn-IDEA-IU
Exec=/usr/local/idea/bin/idea.sh
Icon=/usr/local/idea/bin/idea.png
Terminal=false
Type=Application
Categories=Developer;
这样就创建了一个桌面快捷方式。

2、maven的安装与配置
Maven 是一个项目管理和构建自动化工具。作为一个程序员,都有过为了使用某个功能而在项目中添加jar包的经历,使用的框架多了,需要添加的jar包也多,而梁仿maven能够自动为我们添加需要的jar包。首先在maven官网上下载maven:
下载之后在Downloads目录下有如下文件:

liu@Binja:~/Downloads$ ls
apache-maven-3.3.9-bin.tar.gz
解压到待安装的目录:

liu@Binja:~/Downloads$ sudo tar -zxvf apache-maven-3.3.9-bin.tar.gz -C /usr/local/
同样,修改文件夹名和用户名:

liu@Binja:/usr/local$ sudo mv apache-maven-3.3.9/ maven
liu@Binja:/usr/local$ sudo chown -R liu:liu maven
liu@Binja:/usr/local$ ll maven
total 52
drwxr-xr-x 6 liu liu 4096 3月 28 20:24 ./
drwxr-xr-x 12 root root 4096 3月 28 20:26 ../
drwxr-xr-x 2 liu liu 4096 3月 28 20:24 bin/
drwxr-xr-x 2 liu liu 4096 3月 28 20:24 boot/
drwxr-xr-x 3 liu liu 4096 11月 11 00:38 conf/
drwxr-xr-x 3 liu liu 4096 3月 28 20:24 lib/
-rw-r--r-- 1 liu liu 19335 11月 11 00:44 LICENSE
-rw-r--r-- 1 liu liu 182 11月 11 00:44 NOTICE
-rw-r--r-- 1 liu liu 2541 11月 11 00:38 README.txt
liu@Binja:/usr/local$
然后将maven添加到环境变量中:

sudo vim ~/.bashrc
在最后添加下面的内橡拦纤容:

export PATH=$PATH:/usr/local/maven/bin
使更改生效:

liu@Binja:/usr/local$ source ~/.bashrc
这样衡亏maven就安装好了。

3、用刚安装的maven配置idea
起始idea自带了maven,这里配置自己安装的maven。
一次选择File->Setting->Build,Execution,Deployment->Build Tools->Maven,如下图:

在右侧里的Maven home directory里设置Maven的安装目录,就我这里是/usr/local/maven,在User settings file里设置Mavne的配置文件,我这里使用默认的文件,在Local repository里设置本地包的管理仓库,选择右侧的Override后,可以自定义自己的仓库目录,以后Maven自动下载的包就会存放在这里。
单击OK后maven就配置完了。然后就可以创建一个maven项目。
4、创建maven项目
依次选择File->New->New Project,出现如下界面:

左侧可以选择项目的类型,这里选择Maven,右侧可以选择是否使用模板,勾选上面的Create from archetype后,就可以在下面选择项目模板,这里选择Scala的模板。
一路next之后,这里填一下groupID和artifactID,名字随便取:

然后一路next,填写上项目的名字,OK就可以了。
这样新项目就创建成功了,新项目的文件结构如下图:

其中的pom.xml就是配置我们项目的依赖包的。src是项目存放代码的目录,下面有两个结构相同的目录main和test,其中我们在main目录下编写代码,test编写测试代码,这里先不使用测试,可以将test目录删除。右侧展示的就是pom.xml文件的内容:

勾选右上角的Enable Auto-Import,这样Idea就会自动下载项目所需的依赖包。还要注意中间的Scala版本,选择自己使用的版本。

热点内容
c语言fread返回值 发布:2025-07-12 16:57:32 浏览:678
王者荣耀在哪里显示账号密码 发布:2025-07-12 16:36:42 浏览:898
打包sql数据库 发布:2025-07-12 16:19:27 浏览:796
php日志查看 发布:2025-07-12 16:12:10 浏览:214
ftp目录映射为本地盘符 发布:2025-07-12 16:06:59 浏览:645
nas存储百科 发布:2025-07-12 16:03:17 浏览:126
python的sort函数 发布:2025-07-12 15:53:21 浏览:50
ensp服务器怎么设置web根目录 发布:2025-07-12 15:47:56 浏览:286
安卓怎么设置二卡发信息 发布:2025-07-12 15:43:50 浏览:743
如何看到无线密码 发布:2025-07-12 15:43:13 浏览:677