题目内容

在很多小文件场景下,Spark会其很多Task,但SQL逻辑中存在Shuffle操作是,会大大增加hash分桶树,严重影响性能。FusionInsight中,针对小文件生成的partition进行合并,减少partition数,从而避免在shuffle的时候,车过多的hash分桶,提升性能?()

A. group by
B. coalosce
C. connect
D. jion

查看答案
更多问题

关于DataSet,下列说法不正确的是?()

A. DataSet是一个有特定域的对象组成的强类型集合
B. DataSet不需要反序列化就可执行大部分操作
C. DataSet执行sort、filter、shuttle等操作需要进行反序列化
DataSet与RDD高度类似,性能比RDD好

RDD有Transformation和Action算子,下列属于Action算子的是?()

A. reduceByKey
B. filter
C. map
D. saveAsTextFile

下列说法错误的是()

A. 在选择Spark Streaming和Flink时,对实时性要求高(比如要求毫秒级响应)的企业更倾向于选择流计算框架Flink
B. RDD采用惰性调用,遇到“转换(Transformation)”类型的操作时,只会记录RDD生成的轨迹,只有遇到“动作(Action)”类型的操作时才会触发真正的计算
C. Spark支持三种类型的部署方式:Standalone,Spark on Mesos,Spark on YARN
D. RDD提供的转换接口既适用filter等粗粒度的转换,也适合某一数据项的细粒度转换

Hbase 的某张表的 RowKey 划分 Splitkey 为 9.E.a.z.请问表里面有几个 Region?

A. 6
B. 3
C. 5
D. 4

答案查题题库