A. 高可用的 B. 负责处理数据 C. 负责海量日志采集 D. 高可靠的
A. 单机模式 B. 伪分布式 C. 完全分布式 D. 高可用
A. 在数据过滤阶段需要处理的数据量差异 B. Spark 的运行方式差异 C. Spark 读入的数据源是倾斜的 D. Shuffle 阶段 Key 值过于集中
A. 所有数据都经过NameNode 传递给DataNode B. Client 将文件切分为多个 block并依次上传 Client 只上传数据到一台DataNode,然后由NameNode 负责block的多个副本的复制工作 D. client 根据DataNode 的地址信息,把block按顺序写入到每一个DataNode
A. 只有一个存放数据块副本的机架出问题,不会影响数据读写 B. 写入数据块副本的时候会写到不同机架的DataNode C. MapReduce 会根据机架感知策略获取距离比较近的网络数据 D. 为了方便存放,数据块的所有副本都会存放在同一个机架上
A. 将资源和任务进一步分配给 Executor B. 同步资源信息、Executor 状态信息给 Driver C. 通过注册机制向 Cluster Master 汇报自身的 cpu 和 memory 等资源 D. 在Master 的指示下创建启动 Executor,Executor 是执行真正计算的苦力
A. Hive 运算任务为报错单长期卡在 99% B. Hive 建表后数据无法导入 C. Hive sql 语句运行异常直接退出 D. Hive 无法启动
A. 数据经过NameNode传递给DataNode B. Client端将文件以Block为单位,管道方式依次传到DataNode Client只上传数据到一台DataNode,然后由DataNode负责Block复制工作 D. 当某个DataNode失败,Client会继续传给其它DataNode
A. Map中Key值选取和设定问题,导致 Key 值过于集中 B. DataNode 节点与 Map 节点不在一起 C. MapReduce 需要处理的数据量过大 D. 数据本身的格式问题,例如:文档格式混乱
A. 数据量巨大 B. 数据增长速度快 C. 数据价值密度低 D. 多为结构化数据