A. 在数据过滤阶段需要处理的数据量差异 B. Spark 的运行方式差异 C. Spark 读入的数据源是倾斜的 D. Shuffle 阶段 Key 值过于集中
A. 可重复操作数据集 B. 弹性运算数据集 C. 弹性分布式数据集 D. 远端定义数据集
A. 的目的是帮助 NameNode 合并编辑日志,减少 NameNode 启动时间 B. 是 NameNode 的双机热备 C. 对内存没有要求 D. SecondaryNameNode 应与 NameNode 部署到一个节点
A. Map 中 Key 值选取和设定问题,导致 Key 值过于集中 B. DataNode 节点与 Map 节点不在一起 C. MapReduce 需要处理的数据量过大 D. 数据本身的格式问题,例如:文档格式混乱
A. /etc/host B. /usr/local/hosts C. /etc/hosts D. /home/hosts
A. 表现为存在一个父 RDD 的一个分区对应一个子 RDD 的多个分区,对输入进行协同划分 B. 可以表现为一个父 RDD 的分区对应于一个子 RDD 的分区,对输入进行协同划分 C. 可以表现为多个父 RDD 的分区对应于一个子 RDD 的分区,对输入进行非协同划分 D. 表现为存在一个父 RDD 的一个分区对应一个子 RDD 的多个分区,对输入进行非协同划分
A. /etc/profile B. /etc/networks C. /etc/sysctl.conf D. ~/.bashrc
A. 项目规划阶段 B. 数据治理阶段 C. 项目设计阶段 D. 系统运维阶段
A. sbin/hdfs zkfc -formatZK B. bin/hdfs zkfc -formatZK C. sbin/hdfs zkfc -fromatZK D. bin/hdfs zkfc -fromatZK
A. MapReduce B. HDFS C. Zookeeper D. YARN