zoukankan      html  css  js  c++  java
  • 数据挖掘-1

    数据仓库技术包括数据清理、数据集成和联机分析处理(OLAP)

    OLAP是一种分析技术,具有汇总,合并和聚集功能,以及从不同的角度观察信息的能力。

    但,对于深层次的分析,如数据分类,聚类和数据随时间变化的特征,仍然需要其他 分析工具。

    尽管市场上已有许多“数据挖掘系统”,但是并非所有的 都能进行真正的数据挖掘。不能处理大量数据的数据分析系统,最多称为机器学习系统,统计数据分析工具。

    可规模化的算法。

    实体联系(ER)数据模型,将数据库作为一组实体和他们之间的联系进行建模。通常为关系数据库建造ER模型。

    关系数据库

    多为数据库{OLAp}

    数据挖掘功能用于指定数据挖掘任务中要找的模式类型。一般数据挖掘任务可以分为两类:描述 和 预测。

    描述性挖掘任务刻画数据库中数据的一般特性。预测性挖掘任务在当前数据上进行推断,以进行预测.

    多粒度(不同抽象层)分析

    2.概念类描述:特征和区分

    数据特征(多维挖掘)泛化关系;

    数据区分:将目标类对象的一般特性与一个或多个对比类对象的一般特性比较(用户定义比较类,由数据库得到其他 对象的相同类进行比较);

    区分规则: 沿已知维度或者添加新的维度。

    关联分析:

    分类和预测:

    分类:它找描述或识别数据类或概念的模型(函数),以便能够使用模型预测类标号未知的对象。

        如何提供导出模型?

        :分类规则、判定树、数学公式 、神经网络。

    判定树 是类似一个流程图结构,每个结点代表一个属性值的测试,每个分支代表测试的一个输出,树叶代表类或者类分布。

    比较容易转换为分类规则。

    演变分析:

    数据演变分析描述行为随时间变化的对象的规律或趋势,并对其建模。尽管这可能包括时间相关数据的特征、区分、关联、分类或聚类,这类分析的不同特点包括时间序列数据分析、序列或周期模式匹配和基于类似性的数据分析。

    数据挖掘性能问题:数据挖掘算法的有效性、可规模性和并行处理。

  • 相关阅读:
    CentOS 7.3 CDH 5.10.0 Druid0.12.4安装记录
    cloudera manager卸载流程
    CDH5.10.0 离线安装(共3节点) 转
    CentOS 7 安装Httpd(转)
    CentOS下MySQL的彻底卸载
    CentOS7 修改主机名
    sendEvent()
    QSignalMapper Class
    ubuntu12.04开启虚拟机的unity模式
    BCM_I2C函数更改
  • 原文地址:https://www.cnblogs.com/puck/p/3709491.html
Copyright © 2011-2022 走看看