spark和hadoop的区别是什么?_服务器知识

spark和hadoop的区别：诞生的先后顺序、计算不同、平台不同。

诞生的先后顺序，hadoop属于第一代开源大数据处理平台，而spark属于第二代。属于下一代的spark肯定在综合评价上要优于第一代的hadoop。

计算不同spark和hadoop在分布式计算的底层思路上，其实是极为相似的，即mapreduce分布式运算模型：将运算分成两个阶段，阶段1-map，负责从上游拉取数据后各自运算，然后将运算结果shuffle给下游的reduce，reduce再各自对通过shuffle读取来的数据进行聚合运算spark和hadoop在分布式计算的具体实现上，又有区别；hadoop中的mapreduce运算框架，一个运算job，进行一次map-reduce的过程；而spark的一个job中，可以将多个map-reduce过程级联进行。

平台不同spark和hadoop区别是，spark是一个运算平台，而hadoop是一个复合平台（包含运算引擎，还包含分布式文件存储系统，还包含分布式运算的资源调度系统），所以，spark跟hadoop来比较的话，主要是比运算这一块大数据技术发展到目前这个阶段，hadoop主要是它的运算部分日渐式微，而spark目前如日中天，相关技术需求量大，offer好拿。

Spark的端口总结

Master节点的web端口是8080,work节点的web端口是8081

spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口（比如:Tomcat）时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1,也可以自行设置,修改方法:

1、cd $SPARK_HOME/sbin

2、vi start-master.sh

if [ "$SPARK_MASTER_WEBUI_PORT" = "" ]then

SPARK_MASTER_WEBUI_PORT=8080 #可以修改端口号

8080端口:master WEB端口

8081端口:work WEB端口

7077端口:

master通信端口

18080端口:spark历史服务器端口

相关配置：

conf目录下

cp spark-defaults.conf.template spark-defaults.conf

编辑spark-defaults.conf这个文件

编辑spark-env.sh文件

使用sbin/start-history-server.sh脚本启动

启动日志:

执行spark任务

启动日志：

Web界面

4040端口:

2.3 Spark当前执行的任务页面查看端口4040（例如：使用spark-shell启动spark，此时的任务可以在4040端口页面查看），如果任务结束了4040端口页面不能访问

默认是4040，我改配置改了下

RDD通过persist方法或cache方法可以将前面的计算结果缓存，但是并不是这两个方法被调用时立即缓存，而是触发后面的action时，该RDD将会被缓存在计算节点的内存中，并供后面重用。通过查看源码发现cache最终也是调用了persist方法，默认的存储级别都是仅在内存存储一份，Spark的存储级别还有好多种，存储级别在object StorageLevel中定义的。缓存有可能丢失，或者存储存储于内存的数据由于内存不足而被删除，RDD的缓存容错机制保证了即使缓存丢失也能保证计算的正确执行。通过基于RDD的一系列转换，丢失的数据会被重算，由于RDD的各个Partition是相对独立的，因此只需要计算丢失的部分即可，并不需要重算全部Partition。

拓展资料：Spark是一种安全的、经正式定义的编程语言，被设计用来支持一些安全或商业集成为关键因素的应用软件的设计。其通过运行用户定义的main函数，在集群上执行各种并发操作和计算Spark提供的最主要的抽象，Spark的正式和明确的定义使得多种静态分析技术在Spark源代码的应用中成为可能。

欢迎分享，转载请注明来源：夏雨云

原文地址:https://www.xiayuyun.com/zonghe/196778.html

spark和hadoop的区别是什么?

发表评论

评论列表（0条）