zoukankan      html  css  js  c++  java
  • 数据挖掘导论(完整版)

    一 分类算法

      KNN

        

      神经网络

        

      支持向量机

        适用于高维数据

      决策树

        gini系数

        熵系数

    二 聚类算法

      K-均值

        基于原型,划分类型

        不适用密度差别大,形状差异大

      DBSCAN

        基于密度

    三 关联方法

      apriori

        剪枝

        支持度

        置信度

      FR-growth

    四 组合方法

      bagging

        原理:有放回抽样,63%

        random forest

      

      boosting

        原理:迭代,修改权重

    五 数据预处理

      缺失值

      重复值

      异常值 -- 离群点

      特征提取(维归约)  -- PCA

      特征选择

      离散化&二元化  -- 某些分类算法的要求

      变量变换

        标准化 -- 某些算法的要求,KNN 

        简单函数变化(log)

    四 变量特征

      连续/离散

      定量/定性

      nominal 标称、ordinal  序数、internal 区间 、 ratio 比率

  • 相关阅读:
    设计师用的几个网站
    微信小程序开发框架
    数据模型
    数据库系统
    大话设计模式读书笔记(一)
    关于数据统计时的效率
    orcale同一条语句运行速度差异问题
    使用plspl创建orcale作业
    正则表达式(一)
    oracle游标小试
  • 原文地址:https://www.cnblogs.com/654321cc/p/13084454.html
Copyright © 2011-2022 走看看