在很多小文件场景下,Spark会其很多Task,但SQL逻辑中存在Shuffle操作是,会大大增加hash分桶树,严重影响性能。FusionInsight中,针对小文件生成的partition进行合并,减少partition数,从而避免在shuffle的时候,车过多的hash分桶,提升性能?()
A. group by
B. coalosce
C. connect
D. jion
查看答案
关于DataSet,下列说法不正确的是?()
A. DataSet是一个有特定域的对象组成的强类型集合
B. DataSet不需要反序列化就可执行大部分操作
C. DataSet执行sort、filter、shuttle等操作需要进行反序列化
DataSet与RDD高度类似,性能比RDD好
RDD有Transformation和Action算子,下列属于Action算子的是?()
A. reduceByKey
B. filter
C. map
D. saveAsTextFile
下列说法错误的是()
A. 在选择Spark Streaming和Flink时,对实时性要求高(比如要求毫秒级响应)的企业更倾向于选择流计算框架Flink
B. RDD采用惰性调用,遇到“转换(Transformation)”类型的操作时,只会记录RDD生成的轨迹,只有遇到“动作(Action)”类型的操作时才会触发真正的计算
C. Spark支持三种类型的部署方式:Standalone,Spark on Mesos,Spark on YARN
D. RDD提供的转换接口既适用filter等粗粒度的转换,也适合某一数据项的细粒度转换
Hbase 的某张表的 RowKey 划分 Splitkey 为 9.E.a.z.请问表里面有几个 Region?
A. 6
B. 3
C. 5
D. 4