单选题下面哪些不是引起 Spark 负载不均的原因?
A. 在数据过滤阶段需要处理的数据量差异
B. Spark 的运行方式差异
C. Spark 读入的数据源是倾斜的
D. Shuffle 阶段 Key 值过于集中
查看答案
单选题RDD 是含义是
A. 可重复操作数据集
B. 弹性运算数据集
C. 弹性分布式数据集
D. 远端定义数据集
单选题关于 SecondaryNameNode 哪项是正确的?
A. 的目的是帮助 NameNode 合并编辑日志,减少 NameNode 启动时间
B. 是 NameNode 的双机热备
C. 对内存没有要求
D. SecondaryNameNode 应与 NameNode 部署到一个节点
单选题MapReduce 中可能引起负载问题的原因有哪些?
A. Map 中 Key 值选取和设定问题,导致 Key 值过于集中
B. DataNode 节点与 Map 节点不在一起
C. MapReduce 需要处理的数据量过大
D. 数据本身的格式问题,例如:文档格式混乱
单选题配置主机名和 IP 地址映射的文件位置是
A. /etc/host
B. /usr/local/hosts
C. /etc/hosts
D. /home/hosts