A. 在传统的数据处理流程中,存储的数据是旧的 B. 在传统的数据处理流程中,需要用户主动发出查询来获取结果 C. 传统的数据处理流程,需要先采集数据并存储在关系数据库等数据管理系统中 D. 流计算的处理流程一般包含三个阶段:数据实时采集、数据批量计算、实时查询服务
A. Storm将Streams的状态转换过程抽象为Spout B. Storm认为每个Stream都有一个源头,并把这个源头抽象为Spout C. Storm将Spouts和Bolts组成的网络抽象成Topology D. Topology里面的每个处理组件(Spout或Bolt)都包含处理逻辑, 而组件之间的连接则表示数据流动的方向
A. 从编程的灵活性来讲,Storm是比较理想的选择,它使用Apache Thrift,可以用任何编程语言来编写拓扑结构(Topology) B. Spark Streaming可以实现毫秒级的流计算 C. Spark Streaming无法实现毫秒级的流计算 D. 在Spark上可以统一部署Spark SQL,Spark Streaming、MLlib,GraphX等组件,提供便捷的一体化编程模型
A. FieldsGrouping:广播发送,每一个Task都会收到所有的Tuple B. GlobalGrouping:全局分组,所有的Tuple都发送到同一个Task中 C. NonGrouping:不分组,和ShuffleGrouping类似,当前Task的执行会和它的被订阅者在同一个线程中执行 DirectGrouping:直接分组,直接指定由某个Task来执行Tuple的处理多选题
A. 流处理系统处理的是实时的数据,而传统的数据处理系统处理的是预先存储好的静态数据 B. 用户通过流处理系统获取的是实时结果,而通过传统的数据处理系统,获取的是过去某一时刻的结果 C. 流处理系统无需用户主动发出查询,实时查询服务可以主动将结果推送给用户 D. 传统的数据处理系统系统无需用户主动发出查询,批量查询服务可以主动将结果推送给用户
A. 整合性:Storm可方便地与队列系统和数据库系统进行整合 B. 简易的API:Storm的API在使用上即简单又方便 C. 容错性:Storm可自动进行故障节点的重启、任务的重新分配 D. 可扩展性:Storm的并行特性使其可以运行在分布式集群中
AllGrouping:广播发送,每一个Task都会收到所有的Tuple B. GlobalGrouping:全局分组,所有的Tuple都发送到同一个Task中 C. FieldsGrouping:按照字段分组,保证相同字段的Tuple分配到同一个Task中 DirectGrouping:随机分组,随机分发Stream中的Tuple,保证每个Bolt的Task接收Tuple数量大致一致
A. worker:每个worker进程都属于一个特定的Topology B. executor:executor是产生于worker进程内部的线程 C. task:实际的数据处理由task完成 D. 在Topology的生命周期中,每个组件的task数目是不会发生变化的,而executor的数目却不一定
A. Spark Streaming无法实现毫秒级的流计算 B. Storm可以实现毫秒级响应件 C. Storm无法用于实时计算 D. Spark Streaming采用的小批量处理的方式使得它可以同时兼容批量和实时数据处理的逻辑和算法 第十二章 Flink单选题