超星 - 第7章-数据处理与分析

多选题

Hive底层所依赖的计算引擎可以是:( )

A. Flink
B. MapReduce
C. Tez
D. Spark

多选题

A. Hive是一个基于Hadoop的数据仓库工具,可以用于对存储在Hadoop文件中的数据集进行数据整理、特殊查询和分析处理
B. Hive的学习门槛比较低,因为它提供了类似于关系数据库SQL语言的查询语言--HiveQL
C. 当采用MapReduce作为执行引擎时,Hive可以通过HiveQL语句快速实现简单的MapReduce统计,Hive自身可以将HiveQL语句快速转换成MapReduce任务进行运行
D. Hive在某种程度上可以看作是用户编程接口,其本身并不存储和处理数据

查看答案

多选题

关于Hive与Hadoop生态系统中其他组件的关系,下面描述正确的是:( )

A. HDFS作为高可靠的底层存储,用来存储海量数据
B. MapReduce对这些海量数据进行批处理,实现高性能计算
C. 用HiveQL语句编写的处理逻辑,最终都要转化为MapReduce任务来运行
D. Hive的目标是取代HBase

查看答案

多选题

Hive的系统架构主要包括哪几个模块:( )

A. 探查模块
B. 驱动模块
C. 元数据存储模块
D. 用户接口模块

查看答案

多选题

Spark相对于MapReduce的优点包括:( )

A. Spark的计算模式也属于MapReduce,但不局限于Map和Reduce操作,还提供了多种数据集操作类型,编程模型比MapReduce更灵活
B. Spark提供了内存计算,中间结果直接放到内存中,带来了更高的迭代运算效率
C. Spark同时提供了存储功能,而MapReduce不支持存储
D. Spark基于DAG的任务调度执行机制,要优于MapReduce的迭代执行机制

查看答案

多选题