A. Spark最初由美国加州伯克利大学的AMP实验室于2009年开发 B. Spark在2014年打破了Hadoop保持的基准排序记录 C. Spark用十分之一的计算资源,获得了Hadoop快3倍的速度 D. Spark运行模式单一
A. Spark应用在复杂的批量数据处理 B. SparkSQL是基于历史数据的交互式查询 C. Spark Streaming是基于历史数据的数据挖掘 D. GraphX是图结构数据的处理
A. RDD是运行在工作节点上的一个进程,负责运行Task B. Application是用户编写的Spark应用程序 C. 一个Job包含多个RDD及作用于相应RDD上的各种操作 Directed Acyclic Graph反映RDD之间的依赖关系
A. 图结构数据的处理 B. 基于历史数据的交互式查询 C. 复杂的批量数据处理 D. 基于历史数据的数据挖掘
A. Scala的优势是提供了REPL,提高程序开发效率 B. Scala兼容Java,运行速度快,且能融合到Hadoop生态圈中 C. Scala具备强大的并发性,支持函数式编程 D. Scala可以更好地支持分布式系统
A. Spark在借鉴Hadoop MapReduce优点的同时,很好地解决了MapReduce所面临的问题 B. Spark的计算模式也属于MapReduce,但不局限于Map和Reduce操作 C. Hadoop MapReduce编程模型比Spark更灵活 D. Hadoop MapReduce提供了内存计算,可将中间结果放在内存中,对于迭代运算效率更高
A. 复杂的批量数据处理:通常时间跨度在数十分钟到数小时之间 B. 基于历史数据的交互式查询:通常时间跨度在数十秒到数分钟之间 C. 基于实时数据流的数据处理:通常时间跨度在数十秒到数分钟之间 D. 基于实时数据流的数据处理:通常时间跨度在数百毫秒到数秒之间
A. 不同场景之间输入输出数据能做到无缝共享,通常都需要进行数据格式的转换 B. 不同的软件需要不同的开发和维护团体 C. 需要较高的使用成本 D. 比较难以对同一个集群中的各个系统资源进行统一的资源协调和分配
A. 利用多线程来执行具体的任务,减少任务的启动开销 B. Executor中有一个BlockManager存储模块,有效减少IO开销 C. 提供了一种高度受限的共享内存模型 D. 在不同场景之间输入输出数据能做到无缝共享
A. Standalone B. Spark on Mesos C. Spark on YARN D. Spark on HDFS