题目内容

Spark是以下哪种编程语言实现的?

A. C
B. C++
C. JAVA
D. Scala

查看答案
更多问题

Spark应用在运行时,Stage划分的依据是什么?()

A. task
B. taskSet
C. action
D. shuffle

在很多小文件场景下,Spark会其很多Task,但SQL逻辑中存在Shuffle操作是,会大大增加hash分桶树,严重影响性能。FusionInsight中,针对小文件生成的partition进行合并,减少partition数,从而避免在shuffle的时候,车过多的hash分桶,提升性能?()

A. group by
B. coalosce
C. connect
D. jion

关于DataSet,下列说法不正确的是?()

A. DataSet是一个有特定域的对象组成的强类型集合
B. DataSet不需要反序列化就可执行大部分操作
C. DataSet执行sort、filter、shuttle等操作需要进行反序列化
DataSet与RDD高度类似,性能比RDD好

RDD有Transformation和Action算子,下列属于Action算子的是?()

A. reduceByKey
B. filter
C. map
D. saveAsTextFile

答案查题题库