本文作者:KTV免费预定

spark实时分析服务搭建(spark实时项目)

KTV免费预定 2023年01月09日 09:10:28 1

本文目录一览:

Spark SQL(十):Hive On Spark

Hive是目前大数据领域,事实上的SQL标准。其底层默认是基于MapReduce实现的,但是由于MapReduce速度实在比较慢,因此这几年,陆续出来了新的SQL查询引擎,包括Spark SQL,Hive On Tez,Hive On Spark等。

Spark SQL与Hive On Spark是不一样的。Spark SQL是Spark自己研发出来的针对各种数据源,包括Hive、JSON、Parquet、JDBC、RDD等都可以执行查询的,一套基于Spark计算引擎的查询引擎。因此它是Spark的一个项目,只不过提供了针对Hive执行查询的工功能而已,适合在一些使用Spark技术栈的大数据应用类系统中使用。

而Hive On Spark,是Hive的一个项目,它是将Spark作为底层的查询引擎(不通过MapReduce作为唯一的查询引擎)。Hive On Spark,只适用于Hive,在可预见的未来,很有可能Hive默认的底层引擎就从MapReduce切换为Spark了;适合于将原有的Hive数据仓库以及数据统计分析替换为Spark引擎,作为全公司通用的大数据统计分析引擎。

Hive On Spark做了一些优化:

1、Map Join

Spark SQL默认对join是支持使用broadcast机制将小表广播到各个节点上,以进行join的。但是问题是,这会给Driver和Worker带来很大的内存开销。因为广播的数据要一直保留在Driver内存中。所以目前采取的是,类似乎MapReduce的Distributed Cache机制,即提高HDFS replica factor的复制因子,以让数据在每个计算节点上都有一个备份,从而可以在本地进行数据读取。

2、Cache Table

对于某些需要对一张表执行多次操作的场景,Hive On Spark内部做了优化,即将要多次操作的表cache到内存中,以便于提升性能。但是这里要注意,并不是对所有的情况都会自动进行cache。所以说,Hive On Spark还有很多不完善的地方。

Hive QL语句 =

语法分析 = AST =

生成逻辑执行计划 = Operator Tree =

优化逻辑执行计划 = Optimized Operator Tree =

生成物理执行计划 = Task Tree =

优化物理执行计划 = Optimized Task Tree =

执行优化后的Optimized Task Tree

[第二章] spark-yarn原理分析

在上一篇文章里我们主要是分析了spark standlane内核的执行原理,本节主要是对spark在yarn上的执行原理进行分析。

spark在yarn上执行分两种:

1:spark yarn-cluster

2:spark yarn-client

我们先说下yarn-cluster,

1:我们把写好的程序打包在yarn集群的某一个客户端操作spark-submit提交(注意脚本里的参数与standalone不同)

这时,发送请求到ResourceManager(RM)请求启动ApplicationMaster(AM)

2:RM接收请求,分配Container,在某一个NodeManager(NM)上启动ApplicationMaster

3:NM接收到RM的通知,启动ApplicationMaster.这个时候其实这个NM就是我们说的Driver,ApplicationMaster反过来会找RM,请求Container,来启动Executor

4:RM会分配一批Container给ApplicationMaster用于启动executor,ApplicationMaster会连接其他NM,来启动executor,这里的NM相当于Worker

executor启动后,会向ApplicationMster反向注册。余下的原理与standalone一样

spark yarn-client

1:我们把写好的程序打包在yarn集群的某一个客户端操作spark-submit提交(注意脚本里的参数与standalone不同)

这时,发送请求到ResourceManager(RM)请求启动ApplicationMaster(AM)

2:RM接收请求,分配Container,在某一个NodeManager(NM)上启动ApplicationMaster,但是这里的AM是一个叫ExecutorLanuch进程。

3:NM接收到RM的通知,启动ApplicationMaster.这个时候其实这个NM就是我们说的Driver, ApplicationMaster反过来会找RM,请求Container,来启动Executor

4:RM会分配一批Container给ApplicationMaster用于启动executor,ApplicationMaster会连接其他NM,来启动executor,这里的NM相当于Worker

executor启动后, 这里与yarn-cluster不一样,executor 要向本地(yarn集群的某一个客户端操作spark-submit提交)的机器反向注册 ,因为本地其实会启动一个Driver进程

总结:

yarn-client用于测试,因为,driver运行在本客户端,负责调度application,会与集群产生超大量的网络通信,从而导致网上流量增大。好处是本地执行,可以看到所有的log,方便调试

yarn-cluster用于生产中,driver运行在NM中,没有网网卡流量激增问题缺点:调试不方便,本地用spark-sumbit提交后,看不到log,只能通过yarn -application -id命令来查看,很不方便。

spark和hadoop的区别

spark和hadoop的区别:诞生的先后顺序、计算不同、平台不同。

诞生的先后顺序,hadoop属于第一代开源大数据处理平台,而spark属于第二代。属于下一代的spark肯定在综合评价上要优于第一代的hadoop。

计算不同spark和hadoop在分布式计算的底层思路上,其实是极为相似的,即mapreduce分布式运算模型:将运算分成两个阶段,阶段1-map,负责从上游拉取数据后各自运算,然后将运算结果shuffle给下游的reduce,reduce再各自对通过shuffle读取来的数据进行聚合运算spark和hadoop在分布式计算的具体实现上,又有区别;hadoop中的mapreduce运算框架,一个运算job,进行一次map-reduce的过程;而spark的一个job中,可以将多个map-reduce过程级联进行。

平台不同spark和hadoop区别是,spark是一个运算平台,而hadoop是一个复合平台(包含运算引擎,还包含分布式文件存储系统,还包含分布式运算的资源调度系统),所以,spark跟hadoop来比较的话,主要是比运算这一块大数据技术发展到目前这个阶段,hadoop主要是它的运算部分日渐式微,而spark目前如日中天,相关技术需求量大,offer好拿。

学大数据会有什么工作?

1、大数据开发工程师

负责公司大数据平台的开发和维护,负责大数据平台持续集成相关工具平台的架构设计与产品开发等。

2、数据分析师

进行数据搜集、整理、分析,针对数据分析结论给管理销售运营提供指导意义的分析意见。

3、数据挖掘工程师

商业智能,用户体验分析,预测流失用户等;需要过硬的数学和统计学功底以外,对算法的代码实现也有很高的要求。

4、数据库开发

设计,开发和实施基于客户需求的数据库系统,通过理想接口连接数据库和数据库工具,优化数据库系统的性能效率等。

最后,不论是从事大数据开发岗位,还是大数据运维和大数据分析岗位,这些岗位对于从业者的要求也都比较高,尤其要注重动手实践能力的培养,所以大数据专业的学生一方面要尽量丰富自身的知识结构,另一方面还需要注重动手实践能力的培养。

spark驾驶行为分析实验中用到了哪些华为云服务

华为车联网EI服务,MRS服务。MRS是一个在华为云上部署和管理Hadoop系统的服务,一键即可部署Hadoop集群。MRS提供租户完全可控的一站式企业级大数据集群云服务,完全兼容开源接口,结合华为云计算、存储优势及大数据行业经验,为客户提供高性能、低成本、灵活易用的全栈大数据平台。华为车联网EI服务是基于华为云软件开发服务、华为云企业智能、华为云应用服务在构建海外服务众包平台、车联网平台、在线数据标定平台、高校业务中台等场景中进行了卓越的实践,兼具创新性与市场价值。

apache spark是什么意思?

n.火花;火星;电火花;(指品质或感情)一星spark实时分析服务搭建,丝毫spark实时分析服务搭建,一丁点。

averysmallburningpieceofmaterialthatisproducedbysththatisburningorbyhittingtwohardsubstancestogether。

Asparkisatinybrightpieceofburningmaterialthatfliesupfromsomethingthatisburning.

Asparkofaqualityorfeeling,especiallyadesirableone,isasmallbutnoticeableamountofit.一站式出国留学攻略

阅读
分享