超星 - 作业5：20211212

A. RDD（Resillient Distributed Dataset）是运行在工作节点（WorkerNode）的一个进程，负责运行Task
B. 应用（Application）是用户编写的Spark应用程序
C. 一个Job包含多个RDD及作用于相应RDD上的各种操作
DAG（Directed Acyclic Graph）反映RDD之间的依赖关系

查看答案

单选题

下列哪个说法是错误的？

A. 从编程的灵活性来讲，Storm是比较理想的选择，它使用Apache Thrift，可以用任何编程语言来编写拓扑结构（Topology）
B. Spark Streaming可以实现毫秒级的流计算
C. storm无法实现毫秒级的流计算
D. 在Spark上可以统一部署Spark SQL，Spark Streaming、MLlib，GraphX等组件，提供便捷的一体化编程模型

查看答案

单选题

下列哪个关于Stream Groupings的描述，有误的是？

A. FieldsGrouping：广播发送，每一个Task都会收到所有的Tuple
B. GlobalGrouping：全局分组，所有的Tuple都发送到同一个Task中
C. NonGrouping：不分组，和ShuffleGrouping类似，当前Task的执行会和它的被订阅者在同一个线程中执行
DirectGrouping：直接分组，直接指定由某个Task来执行Tuple的处理

查看答案

推荐就是搜索引擎。

基于内容的推荐采用最近邻技术，利用用户的历史信息计算用户之间的距离，然后利用目标用户的最近邻用户对商品的评价信息来预测用户对特定商品的喜好程度，最后根据这一喜好程度对目标用户进行推荐。

推荐系统包括：用户建模模块、推荐对象建模模块和推荐算法模块。

试叙流计算的一般流程。

试叙数据可视化的重要作用。

试描述UserCF算法和ItemCF的一般实现步骤。

下列说法错误的是？

下列哪个说法是错误的？

下列哪个关于Stream Groupings的描述，有误的是？