Spark应用在运行时,Stage划分的依据是什么?()
A. task
B. taskSet
C. action
D. shuffle
在很多小文件场景下,Spark会其很多Task,但SQL逻辑中存在Shuffle操作是,会大大增加hash分桶树,严重影响性能。FusionInsight中,针对小文件生成的partition进行合并,减少partition数,从而避免在shuffle的时候,车过多的hash分桶,提升性能?()
A. group by
B. coalosce
C. connect
D. jion
关于DataSet,下列说法不正确的是?()
A. DataSet是一个有特定域的对象组成的强类型集合
B. DataSet不需要反序列化就可执行大部分操作
C. DataSet执行sort、filter、shuttle等操作需要进行反序列化
DataSet与RDD高度类似,性能比RDD好
RDD有Transformation和Action算子,下列属于Action算子的是?()
A. reduceByKey
B. filter
C. map
D. saveAsTextFile