本文作者:KTV免费预定

重启了spark服务(虚拟机启动spark)

KTV免费预定 2024年08月10日 20:54:42 1

本文目录一览:

怎么重启spark streaming任务

scala版本 package org.apache.spark.examples.streaming import org.apache.spark.SparkConf import org.apache.spark.streaming.{Seconds, Streaming...

spark安装与运行模式

Spark 的运行模式有 Local(也称单节点模式),Standalone(集群模式),Spark on Yarn(运行在Yarn上),Mesos以及K8s等常用模式,本文介绍前三种模式。

Spark-shell 参数

Spark-shell 是以一种交互式命令行方式将Spark应用程序跑在指定模式上,也可以通过Spark-submit提交指定运用程序,Spark-shell 底层调用的是Spark-submit,二者的使用参数一致的,通过- -help 查看参数:

sparkconf的传入有三种方式:

1.通过在spark应用程序开发的时候用set()方法进行指定

2.通过在spark应用程序提交的时候用过以上参数指定,一般使用此种方式,因为使用较为灵活

3.通过配置spark-default.conf,spark-env.sh文件进行指定,此种方式较shell方式级别低

Local模式

Local 模式是最简单的一种Spark运行方式,它采用单节点多线程(cpu)方式运行,local模式是一种OOTB(开箱即用)的方式,只需要在spark-env.sh导出JAVA_HOME,无需其他任何配置即可使用,因而常用于开发和学习

方式:./spark-shell - -master local[n] ,n代表线程数

Standalone模式

Spark on Yarn

on Yarn的俩种模式

客户端的Driver将应用提交给Yarn后,Yarn会先后启动ApplicationMaster和excutor,另外ApplicationMaster和executor都装在在container里运行,container默认的内存是1g,ApplicationMaster分配的内存是driver-memory,executor分配的内存是executor-memory.同时,因为Driver在客户端,所以程序的运行结果可以在客户端显示,Driver以进程名为SparkSubmit的形式存在。

Cluster 模式

1.由client向ResourceManager提交请求,并上传Jar到HDFS上

这期间包括四个步骤:

a).连接到RM

b).从RM ASM(applicationsManager)中获得metric,queue和resource等信息。

c).upload app jar and spark-assembly jar

d).设置运行环境和container上下文

2.ResourceManager向NodeManager申请资源,创建Spark ApplicationMaster(每个SparkContext都有一个ApplicationManager)

3.NodeManager启动Spark App Master,并向ResourceManager ASM注册

4.Spark ApplicationMaster从HDFS中找到jar文件,启动DAGScheduler和YARN Cluster Scheduler

5.ResourceManager向ResourceManager ASM注册申请container资源(INFO YarnClientImpl: Submitted application)

6.ResourceManager通知NodeManager分配Container,这是可以收到来自ASM关于container的报告。(每个container的对应一个executor)

7.Spark ApplicationMaster直接和container(executor)进行交互,完成这个分布式任务。

进入spark安装目录下的conf文件夹

[atguigu@hadoop102 module] mv slaves.template slaves

[atguigu@hadoop102 conf] vim slaves

hadoop102

hadoop103

hadoop104

4)修改spark-env.sh文件,添加如下配置:

[atguigu@hadoop102 conf]$ vim spark-env.sh

SPARK_MASTER_HOST=hadoop102

SPARK_MASTER_PORT=7077

5)分发spark包

[atguigu@hadoop102 module] sbin/start-all.sh

注意:如果遇到 “JAVA_HOME not set” 异常,可以在sbin目录下的spark-config.sh 文件中加入如下配置:

export JAVA_HOME=XXXX

官方求PI案例

spark-submit

--class org.apache.spark.examples.SparkPi

--master spark://server-2:7077

--executor-memory 1G

--total-executor-cores 2

/home/xxx/software/spark-2.4.4-bin-hadoop2.7/examples/jars/spark-examples_2.11-2.4.4.jar

100

spark-shell

--master spark://server-2:7077

--executor-memory 1g

--total-executor-cores 2

spark-shell --master spark://server-2:7077 --executor-memory 1g --total-executor-cores 2

参数:--master spark://server-2:7077 指定要连接的集群的master

Spark客户端直接连接Yarn,不需要额外构建Spark集群。有yarn-client和yarn-cluster两种模式,主要区别在于:Driver程序的运行节点。

yarn-client:Driver程序运行在客户端,适用于交互、调试,希望立即看到app的输出

yarn-cluster:Driver程序运行在由RM(ResourceManager)启动的AP(APPMaster)适用于生产环境。

安装使用

1)修改hadoop配置文件yarn-site.xml,添加如下内容:

2)修改spark-env.sh,添加如下配置:

[atguigu@hadoop102 conf]$ vi spark-env.sh

YARN_CONF_DIR=/opt/module/hadoop-2.7.2/etc/hadoop

3)分发配置文件

[atguigu@hadoop102 conf] xsync spark-env.sh

4)执行一个程序

spark-submit

--class org.apache.spark.examples.SparkPi

--master yarn

--deploy-mode client

/home/xxx/software/spark-2.4.4-bin-hadoop2.7/examples/jars/spark-examples_2.11-2.4.4.jar

100

注意:在提交任务之前需启动HDFS以及YARN集群。

日志查看

修改配置文件spark-defaults.conf

添加如下内容:

spark.yarn.historyServer.address=server-2:18080

spark.history.ui.port=18080

2)重启spark历史服务

[atguigu@hadoop102 spark] sbin/start-history-server.sh

starting org.apache.spark.deploy.history.HistoryServer, logging to /opt/module/spark/logs/spark-atguigu-org.apache.spark.deploy.history.HistoryServer-1-hadoop102.out

3)提交任务到Yarn执行

spark-submit

--class org.apache.spark.examples.SparkPi

--master yarn

--deploy-mode client

/home/xxx/software/spark-2.4.4-bin-hadoop2.7/examples/jars/spark-examples_2.11-2.4.4.jar

100

SparkSQL同步Hbase数据到Hive表

spark 2.3.0

hive 3.0.0

hbase 2.0.0

常规操作 hbase数据同步到hive是通过再hive端建立hbase的映射表。

但是由于集群组件问题,建立的映射表不能进行

insert into A select * from hbase映射表

操作。报错!

org.apache.hadoop.hbase.client.RetriesExhaustedException: Can't get the location for replica 0

at org.apache.hadoop.hbase.client.RpcRetryingCallerWithReadReplicas.getRegionLocations(RpcRetryingCallerWithReadReplicas.java:332)

spark读取hbase数据形成RDD,构建schma信息,形成DF

通过sparkSQL 将df数据写入到指定的hive表格中。

hadoop本地环境版本一定要与依赖包版本保持一直,不然报如下错误

java.lang.IllegalArgumentException: Unrecognized Hadoop major version number: 3.1.1

hbase 1.X与2.X有很大差距,所以再看案例参考是一定要结合自己的hbase版本。

笔者程序编译中遇到

Cannot Resolve symbol TableInputFormat HBase找不到TableInputFormat

因为:新版本2.1.X版本的HBASE又把mapreduce.TableInputFormat单独抽取出来了

需要导入依赖

dependency

groupIdorg.apache.hbase/groupId

artifactIdhbase-mapreduce/artifactId

version${hbase.version}/version

/dependency

一定要把hbase相关的包都cp 到spark的jars文件下面。然后重启spark服务。

不然你会遇到此类错误

Class org.apache.hadoop.hive.hbase.HBaseSerDe not found

或者

java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/HBaseConfiguration

这些都是缺少jar包的表现。

如何重启大疆spark

大疆DJI重启了spark服务的无人机开机方式都是一样的重启了spark服务,开关就在电源键上重启了spark服务,先按一下,再按住2秒,就可以开机了,关机方法也是一样的。 重启就是关机,再开机就可以了,没有直接重启的丰富。如果你还不是很熟悉,还是强烈建议你先看看 说明书和教学视频

在Spark客户端添加好友时数据库就出错,OpenFire端也报错,需要重启服务器是什么原因?

数据库、openfire服务器重启了spark服务的报错信息是什么重启了spark服务

SPARK程序输出到stdout的中文是乱码应该怎么解决?

打开CM管理界面找到spark配置 搜索spark- 找到高级代码客户端配置 spark-default.conf ,文本框输入一下配置

spark.executor.extraJavaOptions=-Dfile.encoding=UTF-8 -Dsun.jnu.encoding=UTF-8

spark.driver.extraJavaOptions=-Dfile.encoding=UTF-8 -Dsun.jnu.encoding=UTF-8

重启spark服务,重新部署客户端配置

再重新提交应用程序

如果是单机spark环境 找到spark-default.conf 文件 vim编辑添加上述配置

阅读
分享