A. Flink B. MapReduce C. Tez D. Spark
A. Hive是一个基于Hadoop的数据仓库工具,可以用于对存储在Hadoop文件中的数据集进行数据整理、特殊查询和分析处理 B. Hive的学习门槛比较低,因为它提供了类似于关系数据库SQL语言的查询语言--HiveQL C. 当采用MapReduce作为执行引擎时,Hive可以通过HiveQL语句快速实现简单的MapReduce统计,Hive自身可以将HiveQL语句快速转换成MapReduce任务进行运行 D. Hive在某种程度上可以看作是用户编程接口,其本身并不存储和处理数据
A. HDFS作为高可靠的底层存储,用来存储海量数据 B. MapReduce对这些海量数据进行批处理,实现高性能计算 C. 用HiveQL语句编写的处理逻辑,最终都要转化为MapReduce任务来运行 D. Hive的目标是取代HBase
A. 探查模块 B. 驱动模块 C. 元数据存储模块 D. 用户接口模块
A. Spark的计算模式也属于MapReduce,但不局限于Map和Reduce操作,还提供了多种数据集操作类型,编程模型比MapReduce更灵活 B. Spark提供了内存计算,中间结果直接放到内存中,带来了更高的迭代运算效率 C. Spark同时提供了存储功能,而MapReduce不支持存储 D. Spark基于DAG的任务调度执行机制,要优于MapReduce的迭代执行机制
A. 复杂的批量数据处理:时间跨度通常在数十分钟到数小时之间 B. 基于历史数据的交互式查询:时间跨度通常在数十秒到数分钟之间 C. 基于实时数据流的数据处理:时间跨度通常在数百毫秒到数秒之间 D. 基于历史数据的流查询:时间跨度在数十秒到数分钟之间
A. Spark on Mesos模式 B. Spark on YARN模式 C. Spark on Kubernetes模式 D. Local模式
A. 算法工具 B. 特征化工具 C. 流水线 D. 实用工具
A. Storm运行在分布式集群中,其运行任务的方式与Hadoop类似 B. 在Hadoop上运行的是MapReduce作业,而在Storm上运行的是“Topology” C. Storm集群采用P2P架构 D. Storm采用了Zookeeper来作为分布式协调组件
A. Flink和Spark一样,都是基于磁盘的计算框架 B. 当全部运行在Hadoop YARN之上时,Flink的性能甚至还要略好于Spark C. Flink的流计算性能和Storm差不多,可以支持毫秒级的响应 D. Spark的市场影响力和社区活跃度明显超过Flink