zoukankan      html  css  js  c++  java
  • 数据挖掘笔记1

    概念/类描述:特征和区分

    数据可以与类或概念相关联。

    例如,在AllElectronics 商店,销售的商品类包括计算机和打印机,顾客概念包括bigSpenders 和budgetSpenders。用汇总的、简洁的、精确的方式描述每个类和概念可能是有用的。这种类或概念的描述称为类/概念描述。这种描述可以通过下述方法得到

    (1)数据特征化,一般地汇总所研究类(通常称为目标类)的数据,或

    (2)数据区分,将目标类与一个或多个比较类(通常称为对比类)进行比较,或

    (3)数据特征化和比较。数据特征是目标类数据的一般特征或特性的汇总。

    通常,用户指定类的数据通过数据库查询收集。例如,为研究上一年销售增加10%的软件产品的特征,可以通过执行一个SQL 查询收集关于这些产品的数据。有许多有效的方法,将数据特征化和总。例如,基于数据方的 OLAP 上卷操作(1.3.2 小节)可以用来执行用户控制的、沿着指定维的数据汇总。该过程将在第2 章介绍数据仓库时进一步详细讨论。面向属性的归纳技术可以用来进行数据的泛化和特征化,而不必一步步地与用户交互。这一技术将在第5 章讨论。数据特征的输出可以用多种形式提供。包括饼图、条图、曲线、多维数据方和包括交叉表在内的多维表


    关联分析

    “什么是关联分析?”关联分析发现关联规则,这些规则展示属性-值频繁地在给定数据集中一起出现的条件。关联分析广泛用于购物篮或事务数据分析。


    分类和预测

    分类是这样的过程,它找描述或识别数据类或概念的模型(或函数),以便能够使用模型预测类标号未知的对象。导出模型是基于对训练数据集(即,其类标号已知的数据对象)的分析。“如何提供导出模型?”导出模式可以用多种形式表示,如分类(IF-THEN)规则、判定树、数学公式、或神经网络。判定树是一个类似于流程图的结构,每个结点代表一个属性值上的测试,每个分枝代表测试的一个输出,树叶代表类或类分布。判定树容易转换成分类规则。当用于分类时,神经网络是一组类似于神经元的处理单元,单元之间加权连接。分类可以用来预测数据对象的类标号。然而,在某些应用中,人们可能希望预测某些遗漏的或不知道的数据值,而不是类标号。当被预测的值是数值数据时,通常称之为预测。尽管预测可以涉及数据值预测和类标号预测,通常预测限于值预测,并因此不同于分类。预测也包含基于可用数据的分布趋势识别。相关分析可能需要在分类和预测之前进行,它试图识别对于分类和预测无用的属性。这些属性应当排除。

    白发三千丈
  • 相关阅读:
    MIne FirstBlog
    P6563 [SBCOI2020]一直在你身旁
    P6563 [SBCOI2020]一直在你身旁
    T122085 [SBCOI2020]时光的流逝
    LC 918. Maximum Sum Circular Subarray
    1026 Table Tennis
    LC 1442. Count Triplets That Can Form Two Arrays of Equal XOR
    LC 1316. Distinct Echo Substrings
    LC 493. Reverse Pairs
    1029 Median (二分)
  • 原文地址:https://www.cnblogs.com/sanpoye/p/2659638.html
Copyright © 2011-2022 走看看