A. RDD(Resillient Distributed Dataset)是运行在工作节点(WorkerNode)的一个进程,负责运行Task B. 应用(Application)是用户编写的Spark应用程序 C. 一个Job包含多个RDD及作用于相应RDD上的各种操作 DAG(Directed Acyclic Graph)反映RDD之间的依赖关系
A. 从编程的灵活性来讲,Storm是比较理想的选择,它使用Apache Thrift,可以用任何编程语言来编写拓扑结构(Topology) B. Spark Streaming可以实现毫秒级的流计算 C. storm无法实现毫秒级的流计算 D. 在Spark上可以统一部署Spark SQL,Spark Streaming、MLlib,GraphX等组件,提供便捷的一体化编程模型