当前位置:首页 » 编程软件 » sparkshell脚本

sparkshell脚本

发布时间: 2022-11-28 18:29:56

❶ spark-shell启动失败

公司小组分配了三台虚拟机,在虚拟机上面意欲装hadoop集群及spark on yarn

Hadoop 2.7.2
spark 2.3.2

配置好hadoop集群与spark配置后,启动spark-shell --master yarn报错如下

ApplicationMaster日志如下

上图可以看出ApplicationMaster进程丢失,导致连接失败
在AM启动节点上面查看NM的日志信息如下(部分日志)

有此日志可以看出由于AM的vmem内存使用(2.3G)超出了默认的(2.1G),因此被kill掉了

❷ 如何运行含spark的python脚本

1、Spark脚本提交/运行/部署1.1spark-shell(交互窗口模式)运行Spark-shell需要指向申请资源的standalonespark集群信息,其参数为MASTER,还可以指定executor及driver的内存大小。sudospark-shell--executor-memory5g--driver-memory1g--masterspark://192.168.180.216:7077spark-shell启动完后,可以在交互窗口中输入Scala命令,进行操作,其中spark-shell已经默认生成sc对象,可以用:valuser_rdd1=sc.textFile(inputpath,10)读取数据资源等。1.2spark-shell(脚本运行模式)上面方法需要在交互窗口中一条一条的输入scala程序;将scala程序保存在test.scala文件中,可以通过以下命令一次运行该文件中的程序代码:sudospark-shell--executor-memory5g--driver-memory1g--masterspark//192.168.180.216:7077

❸ 如何在spark-shell命令行执行spark hql

前面已经有篇文章介绍如何编译包含hive的spark-assembly.jar了,不清楚的可以翻看一下前面的文章。
cloudera manager装好的spark,直接执行spark-shell进入命令行后,写入如下语句:
val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc)

你会发现没法执行通过,因为cm装的原生的spark是不支持spark hql的,我们需要手动进行一些调整:
第一步,将编译好的包含hive的JAR包上传到hdfs上配置的默认的spark的sharelib目录:/user/spark/share/lib

第二步:在你要运行spark-shell脚本的节点上的/opt/cloudera/parcels/CDH-5.3.0-1.cdh5.3.0.p0.30/lib/spark/lib/目录下面,下载这个jar到这个目录:hadoop fs -get hdfs://n1:8020/user/spark/share/lib/spark-assembly-with-hive-maven.jar(具体路径替换成你自己的)。然后这个目录下面原来会有个软链接spark-assembly.jar指向的是spark-assembly-1.2.0-cdh5.3.0-hadoop2.5.0-cdh5.3.0.jar,我们把这个软链接删除掉重新创建一个同名的软链接:ln -s spark-assembly-with-hive-maven.jar spark-assembly.jar,指向我们刚下载下来的那个JAR包,这个JAR包会在启动spark-shell脚本时装载到driver program的classpath中去的,sparkContext也是在driver中创建出来的,所以需要将我们编译的JAR包替换掉原来的spark-assembly.jar包,这样在启动spark-shell的时候,包含hive的spark-assembly就被装载到classpath中去了。
第三步:在/opt/cloudera/parcels/CDH/lib/spark/conf/目录下面创建一个hive-site.xml。/opt/cloudera/parcels/CDH/lib/spark/conf目录是默认的spark的配置目录,当然你可以修改默认配置目录的位置。hive-site.xml内容如下:

<?xml version="1.0" encoding="UTF-8"?>

<!--Autogenerated by Cloudera Manager-->
<configuration>
<property>
<name>hive.metastore.local</name>
<value>false</value>
</property>
<property>
<name>hive.metastore.uris</name>
<value>thrift://n1:9083</value>
</property>
<property>
<name>hive.metastore.client.socket.timeout</name>
<value>300</value>
</property>
<property>
<name>hive.metastore.warehouse.dir</name>
<value>/user/hive/warehouse</value>
</property>
</configuration>

这个应该大家都懂的,总要让spark找到hive的元数据在哪吧,于是就有了上面一些配置。

第四步:修改/opt/cloudera/parcels/CDH/lib/spark/conf/spark-defaults.conf,添加一个属性:spark.yarn.jar=hdfs://n1:8020/user/spark/share/lib/spark-assembly-with-hive-maven.jar。这个是让每个executor下载到本地然后装载到自己的classpath下面去的,主要是用在yarn-cluster模式。local模式由于driver和executor是同一个进程所以没关系。
以上完事之后,运行spark-shell,再输入:
val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc)

应该就没问题了。我们再执行一个语句验证一下是不是连接的我们指定的hive元数据库
hiveContext.sql("show tables").take(10) //取前十个表看看

最后要重点说明一下这里的第二步第三步和第四步,如果是yarn-cluster模式的话,应该替换掉集群所有节点的spark-assembly.jar集群所有节点的spark conf目录都需要添加hive-site.xml,每个节点spark-defaults.conf都需要添加spark.yarn.jar=hdfs://n1:8020/user/spark/share/lib/spark-assembly-with-hive-maven.jar。可以写个shell脚本来替换,不然手动一个一个节点去替换也是蛮累的。

❹ spark-shell 及 日志配置

1、当SparkContex线程被调用且没有被stop()时,可以使用http://192.168.1.xxx:4040来监控application的状态,但是当sc关闭时,4040页面就无法打开,所以配置History Server

http://spark.apache.org/docs/latest/running-on-yarn.html     官方文档

然后输入网址,显示如下

http://192.168.1.xxx:18080/

2、运行spark-shell时,会自动创建SparkContex sc ,

打开http://192.168.1.xxx:4040/ 观察job运行状态

❺ 如何通过Spark的Shell操作SparkContext实例过程

Spark的交互式脚本是一种学习API的简单途径,也是分析数据集交互的有力工具。

Spark抽象的分布式集群空间叫做Resilient Distributed Dataset (RDD)弹性数据集。
其中,RDD有两种创建方式:
(1)、从Hadoop的文件系统输入(例如HDFS);
(2)、有其他已存在的RDD转换得到新的RDD;

下面进行简单的测试:

1. 进入SPARK_HOME/bin下运行命令:

[java] view plain print?
$./spark-shell

2. 利用HDFS上的一个文本文件创建一个新RDD:

[java] view plain print?
scala> var textFile = sc.textFile("hdfs://localhost:50040/input/WordCount/text1");
[java] view plain print?
textFile: org.apache.spark.rdd.RDD[String] = MappedRDD[1] at textFile at <console>:12

3. RDD有两种类型的操作 ,分别是Action(返回values)和Transformations(返回一个新的RDD)

(1)Action相当于执行一个动作,会返回一个结果:

❻ 如何通过Spark的Shell操作SparkContext实例过程

编写Spark代码,无论是要运行本地还是集群都必须有SparkContext的实例。
接下来,我们读取“README.md”这个文件

2
把读取的内容保存给了file这个变量,其实file是一个MappedRDD,在Spark的代码编写中,一切都是基于RDD操作的;
再接下来,我们从读取的文件中过滤出所有的“Spark”这个词。

3
生成了一个FilteredRDD。
再接下来,我们统计一下“Spark”一共出现了多少次

4
从执行结果中我们发现“Spark”这个词一共出现次数。
此时,我们查看Spark Shell的Web控制台:

5
控制台中显示我们提交了一个任务并成功完成,点击任务可以看到其执行详情

6
那我们如何验证Spark Shell对README.md这个文件中的“Spark”出现的15次是正确的呢?其实方法很简单,我们可以使用Ubuntu自带的wc命令来统计,如下所示:

❼ Spark 的shell操作

执行官方examples,路径 /home/bigdata/apps/spark-2.1.0-bin-hadoop2.7/examples/src/main/scala/org/apache/spark/examples/

org.apache.spark.examples.SparkPi

启动

❽ 如何在spark-shell命令行执行spark hql

cloudera manager装好的spark,直接执行spark-shell进入命令行后,写入如下语句:
val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc)

你会发现没法执行通过,因为cm装的原生的spark是不支持spark hql的,我们需要手动进行一些调整:
第一步,将编译好的包含hive的JAR包上传到hdfs上配置的默认的spark的sharelib目录:/user/spark/share/lib

❾ Spark-shell和Spark-submit提交程序的区别

Spark提交程序来说,最终都是通过Spark-submit命令来实现的,不同的是spark-shell在运行时,会先进行一些初始参数的设置,然后调用Sparksubmit来运行,并且spark-shell是交互式的。

下面我们从源代码的角度来解释。

首先看下Spark-Shell命令,其中它会调用main方法


总结:所用的应用程序最后的提交都是由spark-submit完成的,其他程序的调用只是对spark-submit的参数进行设置后,调用spark-submit来完成应用程序的提交到集群的操作。

热点内容
随机启动脚本 发布:2025-07-05 16:10:30 浏览:532
微博数据库设计 发布:2025-07-05 15:30:55 浏览:30
linux485 发布:2025-07-05 14:38:28 浏览:310
php用的软件 发布:2025-07-05 14:06:22 浏览:760
没有权限访问计算机 发布:2025-07-05 13:29:11 浏览:436
javaweb开发教程视频教程 发布:2025-07-05 13:24:41 浏览:718
康师傅控流脚本破解 发布:2025-07-05 13:17:27 浏览:246
java的开发流程 发布:2025-07-05 12:45:11 浏览:692
怎么看内存卡配置 发布:2025-07-05 12:29:19 浏览:288
访问学者英文个人简历 发布:2025-07-05 12:29:17 浏览:837