zoukankan      html  css  js  c++  java
  • 数据挖掘-1

    数据仓库技术包括数据清理、数据集成和联机分析处理(OLAP)

    OLAP是一种分析技术,具有汇总,合并和聚集功能,以及从不同的角度观察信息的能力。

    但,对于深层次的分析,如数据分类,聚类和数据随时间变化的特征,仍然需要其他 分析工具。

    尽管市场上已有许多“数据挖掘系统”,但是并非所有的 都能进行真正的数据挖掘。不能处理大量数据的数据分析系统,最多称为机器学习系统,统计数据分析工具。

    可规模化的算法。

    实体联系(ER)数据模型,将数据库作为一组实体和他们之间的联系进行建模。通常为关系数据库建造ER模型。

    关系数据库

    多为数据库{OLAp}

    数据挖掘功能用于指定数据挖掘任务中要找的模式类型。一般数据挖掘任务可以分为两类:描述 和 预测。

    描述性挖掘任务刻画数据库中数据的一般特性。预测性挖掘任务在当前数据上进行推断,以进行预测.

    多粒度(不同抽象层)分析

    2.概念类描述:特征和区分

    数据特征(多维挖掘)泛化关系;

    数据区分:将目标类对象的一般特性与一个或多个对比类对象的一般特性比较(用户定义比较类,由数据库得到其他 对象的相同类进行比较);

    区分规则: 沿已知维度或者添加新的维度。

    关联分析:

    分类和预测:

    分类:它找描述或识别数据类或概念的模型(函数),以便能够使用模型预测类标号未知的对象。

        如何提供导出模型?

        :分类规则、判定树、数学公式 、神经网络。

    判定树 是类似一个流程图结构,每个结点代表一个属性值的测试,每个分支代表测试的一个输出,树叶代表类或者类分布。

    比较容易转换为分类规则。

    演变分析:

    数据演变分析描述行为随时间变化的对象的规律或趋势,并对其建模。尽管这可能包括时间相关数据的特征、区分、关联、分类或聚类,这类分析的不同特点包括时间序列数据分析、序列或周期模式匹配和基于类似性的数据分析。

    数据挖掘性能问题:数据挖掘算法的有效性、可规模性和并行处理。

  • 相关阅读:
    26 转义符 re模块 方法 random模块 collection模块的Counter方法
    25 正则表达式
    24 from 模块 import 名字
    24 from 模块 import 名字
    24 from 模块 import 名字
    23 析构方法 items系列 hash方法 eq方法
    21 isinstance issubclass 反射 _str_ _new_ _len_ _call_
    20 属性, 类方法, 静态方法. python2与python3的区别.
    python(1)
    python之字符串格式化
  • 原文地址:https://www.cnblogs.com/puck/p/3709491.html
Copyright © 2011-2022 走看看