多选题谷歌发表的对于大数据时代具有里程碑意义的三篇论文是哪些?
A. GFS:The Google file system
B. MapReduce: Simplified Data Processing on Large Clusters
C. Bigtable: A Distributed Storage System for Structured Data
D. Relativity: The Special and General Theory
多选题以下哪些情况不是容易引发 HDFS 负载不均问题的原因?
A. HDFS 中存储的文件大小不一,小文件太多
B. Data 各数据节点磁盘规格和空间大小有差异
C. NameNode 与 DataNode 节点在同一物理服务器上
D. HDFS 中 Block 的大小设置不合理
多选题以下哪些不属于 ETL 工具( )
A. Kafka
B. Spark
C. Flume
D. sqoop
E. HDFS
多选题在数据仓库的数据架构中,以下哪些不具有按业务场景组织数据的功能?
A. 列式数据
B. 非结构化数据
C. 文档数据
D. 结构化数据