A. 对 B. 错
A. RDD(Resillient Distributed Dataset)是运行在工作节点(WorkerNode)的一个进程,负责运行Task B. 应用(Application)是用户编写的Spark应用程序 C. 一个Job包含多个RDD及作用于相应RDD上的各种操作 DAG(Directed Acyclic Graph)反映RDD之间的依赖关系
A. 从编程的灵活性来讲,Storm是比较理想的选择,它使用Apache Thrift,可以用任何编程语言来编写拓扑结构(Topology) B. Spark Streaming可以实现毫秒级的流计算 C. storm无法实现毫秒级的流计算 D. 在Spark上可以统一部署Spark SQL,Spark Streaming、MLlib,GraphX等组件,提供便捷的一体化编程模型
A. FieldsGrouping:广播发送,每一个Task都会收到所有的Tuple B. GlobalGrouping:全局分组,所有的Tuple都发送到同一个Task中 C. NonGrouping:不分组,和ShuffleGrouping类似,当前Task的执行会和它的被订阅者在同一个线程中执行 DirectGrouping:直接分组,直接指定由某个Task来执行Tuple的处理