A. Spark最初由美国加州伯克利大学(UCBerkeley)的AMP实验室于2009年开发 B. Spark在2014年打破了Hadoop保持的基准排序纪录. C. Spark用十分之一的计算资源,获得了比Hadoop快3倍的速度 D. Spark运行模式单一
A. Scala语法复杂,但是能提供优雅的API计算 B. Scala具备强大的并发性,支持函数式编程,可以更好地支持分布式系统 C. Scala兼容Java,运行速度快,且能融合到Hadoop生态圈中 D. Scala是Spark的主要编程语言
A. 相对于Spark来说,使用Hadoop进行迭代计算非常耗资源 B. Spark将数据载入内存后,之后的迭代计算都可以直接使用内存中的中间结果作运算,避免了从磁盘中频繁读取数据 C. Hadoop的设计遵循“一个软件栈满足不同应用场景”的理念 D. Spark可以部署在资源管理器YARN之上,提供一站式的大数据解决方案
A. Spark应用在复杂的批量数据处理 B. Spark SQL是基于历史数据的交互式查询 C. Spark Streaming是基于历史数据的数据挖掘 D. GraphX是图结构数据的处理
A. RDD(Resillient Distributed Dataset)是运行在工作节点(WorkerNode)的一个进程,负责运行Task B. Application是用户编写的Spark应用程序 C. 一个Job包含多个RDD及作用于相应RDD上的各种操作 Directed Acyclic Graph反映RDD之间的依赖关系
A. 一个RDD就是一个分布式对象集合,本质上是一个只读的分区记录集合 B. 每个RDD可分成多个分区,每个分区就是一个数据集片段 C. RDD是可以直接修改的 D. RDD提供了一种高度受限的共享内存模型
A. 基于历史数据的数据挖掘 B. 图结构数据的处理 C. 基于历史数据的交互式查询 D. 基于实时数据流的数据处理
A. 图结构数据的处理 B. 基于历史数据的交互式查询 C. 复杂的批量数据处理 D. 基于历史数据的数据挖掘多选题