不同的计算框架统一运行在YARN中,可以带来哪些好处:( )
A. 减少了所使用的编程语言的种类
B. 计算资源按需伸缩
C. 不用负载应用混搭,集群利用率高
D. 共享底层存储,避免数据跨集群迁移
下面关于Spark的运行架构的描述,正确的是:( )
A. Spark运行架构包括Cluster Manager、Worker Node、Driver Program和Executor
B. Spark集群资源管理器可以是Spark自带的资源管理器,也可以是YARN或Mesos等资源管理框架
C. Spark采用“P2P架构”
D. Spark利用多线程来执行具体的任务
下面关于RDD的描述正确的是:( )
A. 一个RDD就是一个分布式对象集合
B. 一个RDD本质上是一个只读的分区记录集合
C. RDD提供了一组丰富的操作以支持常见的数据运算,分为“行动”(Action)和“转换”(Transformation)两种类型
D. RDD不适合对于数据集中元素执行相同操作的批处理式应用,而比较适合用于需要异步、细粒度状态的应用
下面关于Spark SQL的描述正确的是:( )
A. Spark SQL在Hive兼容层面仅依赖HiveQL解析和Hive元数据
B. Spark SQL目前支持Scala、Java编程语言,暂时不支持Python语言
C. Spark SQL执行计划生成和优化都由Catalyst(函数式关系查询优化框架)负责
D. Spark SQL增加了DataFrame(即带有Schema信息的RDD),使用户可以在Spark SQL中执行SQL语句