某企业的数据仓库运行在大数据计算服务(MaxCompute,原ODPS)上,开发人员在加工数据时发现用户表user中的用户标识字段userjd有部分脏数据,正确的格式应该是8位的字符串。可以使用SQL语句将脏数据过滤出来()
A. select from user where length(userid)-8
B. selet from user where length(useid)l=8
C. select from user where length(useid)<>8
D. select* from user where length(userd)<>8 or userid is null
查看答案
传统的MapReduce模型要求每一轮MapReduce操作之后,数据必须落地到分布式文件系统上。而一般的MapReduce应用通常由多个MapReduce作业组成,每个作业结束之后需要写入磁盘接下去的Map任务很多情况下只是读一遍数据为后续的Shuffle阶段做准备,这样其实造成了冗余的0操作。为了解决这问题,提供更优的性能,大数据计算服务提供了扩展的MapReduce模型,该模型区别于普通ma
A. 支持Map后连接任意多个 Reduce操作,如Map-Reduce-Reduce
B. 支持Map后不连接 Reduce,而是连接另一个map,如Map-Map- Reduce
C. 支持 Chain mapper/ Reducer,即支持MapReduce-Map-Reduce
D. 支持没有Map,直接进入 Reduce
以下ODPSSQL哪个效率最高(见Join语句中where条件的位置)()
A. select*from(select.from a where dt=20140301)A left outer join B on
B. id=A. id
C. 没有区别
D. select* from a left outer join B on
E. id=A id and Adt=20140301
F. select* from A left outer join B on
G. id=A.id where A dt=20140301
ODPS中,哪个命令可查看角色role_test的权限()
A. list role role_test
B. show grants for role role_test
C. desc role role_test
D. show acl for role role_test
大数据计算服务MaxCompute,原oDPs)中的用户基本信息表dim.user和扩晨信息表dim_user_ext都有一个整型字段user_id业务上该字段的每个取值都唯一标识一条用户记录)。表dim.user中共有10000条记录,其中user_id从2000到11999,dim_user_ext表中共有5000条记录其中user_id从0到4999开发人员在建立用户模型时需要综合用到两张表
A. 使用全关联: select t1.*t2.* from dim. user t1 full outer join dim_user_ext t2 on t1.user_id=t2.user_id
B. 使用右关联: select t1.*,t2.* from dim_user t1 right join dim_user_ext t2 on t1.user_id=t2.user_id
C. 使用左关联: select t1.*,t2.* from dim*user t1 left join dim_user_ext t2 on t1.user_id=t2.user_id
D. 使用内关联: select t1.*t2.* from dim_user t1 join dim_user_ext t2 on t1.user_id=t2.user_id