第十周学习总结
1.准备软件杯,资料查找和软件构思
了解几个算法:
Aprori算法(候选消除算法):
Apriori算法是第一个关联规则挖掘算法,也是最经典的算法。它利用逐层搜索的迭代方法找出数据库中项集的关系,以形成规则,其过程由连接(类矩阵运算)与剪枝(去掉那些没必要的中间结果)组成。该算法中项集的概念即为项的集合。包含K个项的集合为k项集。项集出现的频率是包含项集的事务数,称为项集的频率。如果某项集满足最小支持度,则称它为频繁项集。
利用频繁集的两个特性,过滤掉其他无关集合,提高效率,但是每一次消除都需要扫描一次所有数据记录,算法在面临大数据集合时会很慢。
FP-growth算法:
通过构造一个数结构来压缩数据记录,挖掘频繁项集只需要扫描两次数据记录,改算法不需要生成候选集合,效率比较高。
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)聚类算法
DBSCAN聚类算法是一种基于密度的空间聚类算法;
kmeans聚类算法只能处理球形的簇,也就是一个聚成实心的团(这是因为算法本身计算平均距离的局限)。但往往现实中还会有各种形状,比如下图,环形和不规则形,这个时候,那些传统的聚类算法显然就悲剧了。于是就思考,样本密度大的成一类呗。这就是DBSCAN聚类算法。
BIRCH(Balanced Iterative Reducing and Clustering Using Hierarchies)聚类算法原理
聚类算法BIRCH通过扫描数据库,建立一个初始存放于内存中的聚类特征树, 然后对聚类特征树的叶结点进行聚类。它的核心是聚类特征(CF)和聚类特征树(CF Tree)。