单选题Spark on Yarn 有两种接口模式是
A. Consumers 模式和 Producer 模式
B. Client 模式和 Cluster 模式
C. Local 模式和 Remote 模式
D. Resource 模式和 Application 模式
查看答案
单选题下面哪些不是引起 Spark 负载不均的原因?
A. 在数据过滤阶段需要处理的数据量差异
B. Spark 的运行方式差异
C. Spark 读入的数据源是倾斜的
D. Shuffle 阶段 Key 值过于集中
单选题RDD 是含义是
A. 可重复操作数据集
B. 弹性运算数据集
C. 弹性分布式数据集
D. 远端定义数据集
单选题关于 SecondaryNameNode 哪项是正确的?
A. 的目的是帮助 NameNode 合并编辑日志,减少 NameNode 启动时间
B. 是 NameNode 的双机热备
C. 对内存没有要求
D. SecondaryNameNode 应与 NameNode 部署到一个节点
单选题MapReduce 中可能引起负载问题的原因有哪些?
A. Map 中 Key 值选取和设定问题,导致 Key 值过于集中
B. DataNode 节点与 Map 节点不在一起
C. MapReduce 需要处理的数据量过大
D. 数据本身的格式问题,例如:文档格式混乱