zoukankan      html  css  js  c++  java
  • chapte6:挖掘频繁模式、关联和相关性:基本概念和方法

    频繁模式是指频繁的出现在数据集中的模式(如项集、子序列或子结构)

    规则兴趣度的两种度量:支持度(所发现规则的有用性)和置信度(所发现规则的确定性)

    关联规则的挖掘分以下两步:

    1)找出所有的频繁项集

    2)由频繁项集产生强关联规则

    第二步的开销远小于第一步,因此挖掘关联规则的总体性能由第一步决定

    先验性质:频繁项集的所有非空子集也一定是频繁的-

    1.Apriori算法:通过限制候选产生发现频繁项集

    Apriori算法使用逐层搜索迭代方法,首先提高扫描数据库,累计每个项的计数并搜集满足最小支持度的项,找出频繁1项集的集合L1;然后使用L1找出频繁2项集的集合L2,使用L2找出L3,如此下去,直到不能再找到频繁k项集。

    提高Apriori算法的效率:

    基于散列的技术、事务压缩、划分、抽样、动态项集计数

    2.FP树:对于挖掘长的频繁模式和短的频繁模式,它都是有效和可伸缩的,并且大约比Apriori算法快一个数量级

    3.使用垂直数据格式挖掘频繁项集

    水平数据格式:TID项集格式{TID:itemset}

    垂直数据格式:项-TID集格式{item:TID_set}

  • 相关阅读:
    在已安装的PHP版本之间切换
    LDAP系列(一)完整的 LDAP + phpLDAPadmin安装部署流程
    如何关闭Windows自动更新
    win10安装SDK、JAVA、Python配置环境变量
    怎么看懂接口文档
    全面解析 Postman 工具
    API接口监控
    jmeter面试题
    Navicat for MySQL 连接数据库
    Linux系统
  • 原文地址:https://www.cnblogs.com/sxbjdl/p/5761403.html
Copyright © 2011-2022 走看看