zoukankan      html  css  js  c++  java
  • 机器学习(十一):FP增长(FP-growth)

    四、代码实现(python)

    以下代码来自Peter Harrington《Machine Learing in Action》
    代码如下(保存为fpGrowth.py):

    # -- coding: utf-8 --
    class treeNode:
        # FP树中节点的类定义,用于构建FP树
        def __init__(self, nameValue, numOccur, parentNode):
            self.name = nameValue       # 节点名字
            self.count = numOccur       # 计数值
            self.nodeLink = None        # 链接相似的元素项
            self.parent = parentNode    # 指向当前节点的父节点
            self.children = {}          # 存放节点的子节点
    
        def inc(self, numOccur):
            # 对count变量增加给定值
            self.count += numOccur
    
        def disp(self, ind=1):
            # 用于将树以文本形式显示
            print '  '*ind, self.name, ' ', self.count
            for child in self.children.values():
                child.disp(ind+1)
    
    def loadSimpDat():
        # 数据集
        simpDat = [['r', 'z', 'h', 'j', 'p'],
                   ['z', 'y', 'x', 'w', 'v', 'u', 't', 's'],
                   ['z'],
                   ['r', 'x', 'n', 'o', 's'],
                   ['y', 'r', 'x', 'z', 'q', 't', 'p'],
                   ['y', 'z', 'x', 'e', 'q', 's', 't', 'm']]
        return simpDat
    
    def createInitSet(dataSet):
        # 对数据集进行格式化处理
        retDict = {}
        for trans in dataSet:
            retDict[frozenset(trans)] = 1
        return retDict
    
    def createTree(dataSet, minSup=1):
        # 该函数用于创建FP树
        # 该函数接收两个参数,分别是格式化后的数据集和需满足的最小支持度计数
        headerTable = {}                                # 存储头指针
        for trans in dataSet:
            # 循环每一个事务
            for item in trans:
                # 循环事务中的每一个元素,存储各元素的支持度计数
                headerTable[item] = headerTable.get(item, 0) + dataSet[trans]
        # 移除不满足最小支持度计数的元素项
        for k in headerTable.keys():
            if headerTable[k] < minSup:
                del(headerTable[k])
        freqItemSet = set(headerTable.keys())           # 存储删除后的元素项,即频繁项
        if len(freqItemSet) == 0: return None, None     # 如果没有元素项满足要求,则退出
        # 对头指针表扩展,以便可以保存计数值及指向每种类型第一个元素项的指针
        for k in headerTable:
            headerTable[k] = [headerTable[k], None]
        retTree = treeNode('Null Set', 1, None)         # 创建只包含空集合的根节点
        for tranSet, count in dataSet.items():          # 第二次遍历数据集,tranSet为各事务,count为初始化的计数值
            localD = {}
            for item in tranSet:
                if item in freqItemSet:                 # 如果该元素项为频繁项,则可继续操作
                    localD[item] = headerTable[item][0] # 将第一次遍历得到的支持度计数赋值給相应元素
            if len(localD) > 0:
                orderedItems = [v[0] for v in sorted(localD.items(), key=lambda p: p[1], reverse=True)] # 获取元素项,并按支持度计数高到低排序
                updateTree(orderedItems, retTree, headerTable, count)
        return retTree, headerTable
    
    def updateTree(items, inTree, headerTable, count):
        # 该函数接收4个参数,分别为已排序好的元素项、FP树、头指针表、对应计数值
        if items[0] in inTree.children:
            # 如果该元素是作为子节点存在,则更新该元素的计数
            inTree.children[items[0]].inc(count)
        else:
            # 否则,创建一个新的treeNode并将其作为一个字节点添加到树中
            inTree.children[items[0]] = treeNode(items[0], count, inTree)
            if headerTable[items[0]][1] == None:
                # 若头指针为空,更新头指针为树的子节点
                headerTable[items[0]][1] = inTree.children[items[0]]
            else:
                # 若头指针有值,更新头指针的nodeLink
                updateHeader(headerTable[items[0]][1], inTree.children[items[0]])
        if len(items) > 1:
            # 对剩下的元素进行迭代调用自身
            updateTree(items[1::], inTree.children[items[0]], headerTable, count)
    
    def updateHeader(nodeToTest, targetNode):
        # 该函数用于更新头指针
        # 该函数接收2个参数,分别是待更新的位置和需更新的值
        while (nodeToTest.nodeLink != None):
            nodeToTest = nodeToTest.nodeLink           # 循环至链表尾端为None
        nodeToTest.nodeLink = targetNode
    
    def ascendTree(leafNode, prefixPath):
        # 该函数用于递归上溯整颗树
        if leafNode.parent != None:
            prefixPath.append(leafNode.name)
            ascendTree(leafNode.parent, prefixPath)
    
    def findPrefixPath(basePat, treeNode):
        # 该函数用于为给定元素项生成一个前缀路径
        # 该函数接收2个参数,分别是给定元素项和头指针表纪录的该元素的相似项路径
        condPats = {}
        while treeNode != None:
            prefixPath = []
            ascendTree(treeNode, prefixPath)
            if len(prefixPath) > 1:
                condPats[frozenset(prefixPath[1:])] = treeNode.count
            treeNode = treeNode.nodeLink
        return condPats
    
    def mineTree(inTree, headerTable, minSup, preFix, freqItemList):
        # 该函数用于将前缀路径转化为条件FP树
        # 该函数接收5个参数,分别是FP树、头指针表、需满足最小支持度计数、前缀路径、频繁项集
        bigL = [v[0] for v in sorted(headerTable.items(), key=lambda p: p[1])]  # 将频繁1-项集的元素按支持度计数低到高排序
        for basePat in bigL:
            newFreqSet = preFix.copy()
            newFreqSet.add(basePat)
            freqItemList.append(newFreqSet)
            condPattBases = findPrefixPath(basePat, headerTable[basePat][1])    # 获取basePat的前缀路径
            myCondTree, myHead = createTree(condPattBases, minSup)              # 根据给定的前缀路径构建FP树
            if myHead != None:
                # 递归直到该元素的前缀路径为空
                print 'conditonal tree for:', newFreqSet
                myCondTree.disp(1)
                mineTree(myCondTree, myHead, minSup, newFreqSet, freqItemList)
  • 相关阅读:
    nginx优化之配置文件优化一常用参数
    Centos7+LVS-DR+Apache负载均衡web实验
    LVS负载均衡原理
    Centos7+LVS-NAT+apache实验
    CentOS7.6 使用ceph-deploy部署mimic 13.2.8集群(一)
    linux关闭ACPI电源管理模块
    Jenkins + pipeline + Git + PHP (九)
    Jenkins-Master-slave架构(八)
    Jenkins参数化构建(七)
    Jenkins连接Git仓库时候报错Permission denied, please try again.
  • 原文地址:https://www.cnblogs.com/pengfeiz/p/11393051.html
Copyright © 2011-2022 走看看