考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3, 4},{1,3,5},{1,4,5},{2,3,4},{2,3,5},{3,4,5},假定数据集中只有5个项, 采用连接-剪枝策略,由候选产生过程得到的4-项集不包含( )。
A. 1,2,3,4
B. 1,2,3,5
C. 1,2,4,5
D. 1,3,4,5
查看答案
设最小支持度是30%,下面购物篮能够提取的3-项集的最大数量是( )。ID 购买项1 牛奶,啤酒,尿布2 面包,黄油,牛奶3 牛奶,尿布,饼干4 面包,黄油,饼干5 啤酒,饼干,尿布6 牛奶,尿布,面包,黄油7 面包,黄油,尿布8 啤酒,尿布9 牛奶,尿布,面包,黄油10 啤酒,饼干
A. 1
B. 2
C. 3
D. 4
关于FP-growth算法,下列说法错误的是( )。
A. 它采取分而治之的策略
B. 它没有候选生成,也没有候选测试
C. 它不重复扫描整个数据库
D. 挖掘结果中有重复的频繁项集
下列挖掘频繁项集的算法中,效率最高的是( )。
Apriori算法
B. 各种改进的Apriori算法
C. FP-growth算法
D. Tree Projection算法
抽样是改进Apriori效率的方法之一。关于抽样,下列说法错误的是( )。
A. 抽样是在给定数据的子集S上进行挖掘
B. 效率的提升是以牺牲准确性作为代价的
C. 很可能会丢失一些全局频繁模式
D. 这种方法只需扫描一次数据库