A. FieldsGrouping:广播发送,每一个Task都会收到所有的Tuple B. GlobalGrouping:全局分组,所有的Tuple都发送到同一个Task中 C. NonGrouping:不分组,和shuffleGrouping类似,当前Task的执行会和它的被订阅者在同一个线程中执行 DirectGrouping:直接分组,直接指定由某个Task来执行Tuple的处理
A. 数据快速持续到达,潜在大小也许是无穷无尽的 B. 数据来源众多,格式复杂 C. 注重数据的整体价值,不过分关注个别数据 D. 系统可以控制将要处理的新到达的数据元素的顺序
A. 批量计算:充裕时间处理静态数据,如Hadoop B. 静态数据不适合采用批量计算,因为它不适合用传统的关系模型建模 C. 流数据必须采用实时计算 D. 流数据的响应时间一般为秒级,甚至需要毫秒级
A. 高性能:处理大数据的基本要求,如每秒处理几十万条数据 B. 实时性:保证较低的延迟时间,达到秒级别,甚至是毫秒级别 C. 分布式:支持大数据的基本架构,必须能够平滑扩展 D. 可靠性:能可靠地处理流数据
A. Hadoop擅长批处理,不适合流计算 B. MapReduce是专门面向静态数据的批量处理的 C. Hadoop设计的初衷是面向大规模数据的批量处理 D. MapReduce不适合用于处理持续到达的动态数据
A. 流处理系统处理的是实时的数据,而传统的数据处理系统处理的是预先存储好的静态数据 B. 用户通过流处理系统获取的是实时结果,而通过传统的数据处理系统,获取的是过去某一时刻的结果 C. 流处理系统无需用户主动发出查询,实时查询服务可以主动将结果推送给用户 D. 传统的数据处理系统无需用户主动发出查询,批量查询服务可以主动将结果推送给用户
A. 整合性:Storm可方便地与队列系统和数据库系统进行整合 B. 简易的API:Storm的API在使用上既简单又方便 C. 容错性:Storm可自动进行故障节点的重启、任务的重新分配 D. 可扩展性:Storm的并行特性使其可以运行在分布式集群中
AllGrouping:广播发送,每一个Task都会收到所有的Tuple B. GlobalGrouping:全局分组,所有的Tuple都发送到同一个Task中 C. FieldsGrouping:按字段分组,保证相同字段的Tuple分配到同一个Task中 DirectGrouping:随机分组,随机分发Stream中的Tuple,保证每个Bolt的Task,接收Tuple数量大致一致
A. worker:每个Worker进程都属于一个特定的ToPology B. Excutor:executor是产生于worker进程内部的线程 C. Task:实际的数据处理由task完成 D. 在Topology的生命周期中,每个组件的task数目是不会发生变化的,而executor 的数目却不一定
A. Spark Streaming无法实现毫秒级的流计算 B. Storm可以实现毫秒级响应件 C. Storm无法用于实时计算 D. Spark Streaming 采用的小批量处理的方式使得它可以同时兼容批量和实时处理的逻辑和算法