摘要: 针对大数据环境下频繁项查找效率低和可扩展性问题,提出了一种基于MapReduce框架运行的新分布式FIM算法。首先,使用前缀序列树来构建候选序列子集,避免了昂贵的扫描过程。接着,使用宽幅支持度的方法产生频繁项集,每个MapReduce迭代将修剪掉非频繁项集,显著地压缩内存消耗,以及每一个MapReduce作业的迭代时间。最后,在不同事务规模和支持度下,与不同算法进行实验对比。实验结果表明,提出的序列增长算法获得了良好的效率和可扩展性,特别是在处理大数据集和长项集方面。
黄彩娟, 刘卓华, 所辉, 杨滨.
大数据环境下基于前缀树的频繁项集挖掘
[J]. 控制工程, 2019, 26(11): 2136-2140.
HUANG Cai-juan, LIU Zhuo-hua, SUO Hui, YANG Bin.
Frequent Itemset Mining Using Prefix
Tree in Big Data Environment
[J]. Control Engineering of China, 2019, 26(11): 2136-2140.