大数据技术作业2

1.Spark与Hadoop的对比

总体而言,Hadoop中的MapReduce计算框架主要存在以下缺点:

表达能力有限。计算都必须转化为Map和Reduce两个操作,但这并不适合所有的情况,难以描述复杂的数据处理过程;

磁盘I/O开销大。每次执行时都需要从硬盘读取数据,并且在计算完成后需要将中间过程写入到磁盘中,I/O开销大;

延迟高。一次计算可能需要分解成一系列按顺序执行的MapReduce任务,任务之间的衔接由于涉及到I/O开销,会产生较高延迟。而且,在前一个任务执行完成之前,其他任务无法开始,因此难以胜任复杂、多阶段的计算任务。

Spark对比MapReduce的优点:

Spark的计算模式也属于MapReduce,但不局限与Map和Reduce操作,还提供了多种数据集操作类型,编程模型比MapReduce更灵活;

Spark提供了内存计算,中间结果直接放到内存中,带来了更高的迭代运算效率;

Spark提供DAG的任务调度执行机制,要优于MapReduce的迭代执行机制。


大数据技术作业2
https://fulequn.github.io/2020/11/Article202011211/
作者
Fulequn
发布于
2020年11月21日
许可协议