大数据技术作业2

1.Spark与Hadoop的对比

总体而言，Hadoop中的MapReduce计算框架主要存在以下缺点：

表达能力有限。计算都必须转化为Map和Reduce两个操作，但这并不适合所有的情况，难以描述复杂的数据处理过程；

磁盘I/O开销大。每次执行时都需要从硬盘读取数据，并且在计算完成后需要将中间过程写入到磁盘中，I/O开销大；

延迟高。一次计算可能需要分解成一系列按顺序执行的MapReduce任务，任务之间的衔接由于涉及到I/O开销，会产生较高延迟。而且，在前一个任务执行完成之前，其他任务无法开始，因此难以胜任复杂、多阶段的计算任务。

Spark对比MapReduce的优点：

Spark的计算模式也属于MapReduce，但不局限与Map和Reduce操作，还提供了多种数据集操作类型，编程模型比MapReduce更灵活；

Spark提供了内存计算，中间结果直接放到内存中，带来了更高的迭代运算效率；

Spark提供DAG的任务调度执行机制，要优于MapReduce的迭代执行机制。

大数据技术作业2

https://fulequn.github.io/2020/11/Article202011211/

作者

Fulequn

发布于

2020年11月21日

许可协议