题目内容

下面关于Spark的运行架构的描述,正确的是:( )

A. Spark运行架构包括Cluster Manager、Worker Node、Driver Program和Executor
B. Spark集群资源管理器可以是Spark自带的资源管理器,也可以是YARN或Mesos等资源管理框架
C. Spark采用“P2P架构”
D. Spark利用多线程来执行具体的任务

查看答案
更多问题

下面关于RDD的描述正确的是:( )

A. 一个RDD就是一个分布式对象集合
B. 一个RDD本质上是一个只读的分区记录集合
C. RDD提供了一组丰富的操作以支持常见的数据运算,分为“行动”(Action)和“转换”(Transformation)两种类型
D. RDD不适合对于数据集中元素执行相同操作的批处理式应用,而比较适合用于需要异步、细粒度状态的应用

下面关于Spark SQL的描述正确的是:( )

A. Spark SQL在Hive兼容层面仅依赖HiveQL解析和Hive元数据
B. Spark SQL目前支持Scala、Java编程语言,暂时不支持Python语言
C. Spark SQL执行计划生成和优化都由Catalyst(函数式关系查询优化框架)负责
D. Spark SQL增加了DataFrame(即带有Schema信息的RDD),使用户可以在Spark SQL中执行SQL语句

下面关于Spark Streaming的描述正确的是:( )

A. Spark Streaming是构建在Spark Core上的实时计算框架,它扩展了Spark处理大规模流式数据的能力
B. Spark Streaming可结合批处理和交互查询,适合一些需要对历史数据和实时数据进行结合分析的应用场景
C. Spark Streaming可整合多种输入数据源,如Kafka、Flume、HDFS,甚至是普通的TCP套接字
D. Spark Streaming实际上是以一系列微小批处理来模拟流计算

Structured Streaming包括哪两种处理模型:( )

A. 微批处理
B. 高阶处理
C. 分层处理
D. 持续处理

答案查题题库