下面关于大数据处理与分析的描述,正确的是:( )
A. 在理论层面,数据分析需要统计学、机器学习和数据挖掘等知识
B. 在技术层面,包括单机分析工具(比如SPSS、SAS等)或单机编程语言(比如Python、R),以及大数据处理与分析技术(比如MapReduce、Spark、Hive等)
C. 在大数据时代到来之前,数据分析主要以小规模的抽样数据为主,一般使用单机分析工具(比如SPSS和SAS)或者单机编程(比如Python、R)的方式来实现分析程序
D. 到了大数据时代,数据量爆炸式地增长,数据分析就需要采用分布式实现技术,比如使用MapReduce、Spark或Flink编写分布式分析程序,借助于集群的多台机器进行并行数据处理分析
下面关于MapReduce工作流程的描述,正确的是:( )
A. 一个大的MapReduce作业,会被拆分成许多个Map任务在多台机器上并行执行
B. 每个Map任务通常运行在数据存储的节点上
C. 当Map任务结束后,会生成以形式表示的许多中间结果
D. Reduce任务会对中间结果进行汇总计算得到最后结果