zoukankan      html  css  js  c++  java
  • 《数据挖掘导论》笔记 (一)

    绪论

    什么是数据挖掘

    数据挖掘是再大型数据存储库中,自动地发现有用信息的过程。(发现先前未知的有用模式,还可以预测未来观测结果)

    并非所有的信息发现都视为数据挖掘,例使用数据库查找个别的记录或通过因特网查找特定的Web页面,则是信息检索。尽管如此,人们也在利用数据挖掘技术增强信息检索系统的能力。

    数据挖掘是数据库中知识发现(KDD)不可缺少的一部分。而KDD是将未加工的数据转换为有用信息的整个过程。

    KDD过程:

    image

    数据挖掘要解决的问题:

    1.可伸缩——如果数据挖掘算法要处理这些海量数据集,则算法必须是可伸缩的。为了实现可伸缩可能还需要实现新的数据结构,才能以有效的方式访问每个记录。例如,当要处理的数据不能放进内存时,可能需要非内存算法。使用抽样技术或开发并行和分布算法也可以提高可伸缩成都

    2.高维性——常常遇到具有成百上千属性的数据集,随着维度(特征数)的增加,计算复杂性迅速增加。

    3.异种数据和复杂数据——随着数据挖掘作用越来越大,越来越需要能够处理异种属性的技术。此外,为挖掘复杂对象而开发的技术应当考虑数据中的联系。

    4.数据的所有权与分布——有时,需要分析的数据并非存放在一个站点,或归属一个机构,而是地理上分布在属于多个机构的资源中。这就需要开发分布式数据挖掘技术。

    5.非传统的分析——传统的统计方法基于一种假设-检验模式,即提出一种假设,设计实验来收集数据,然后针对假设分析数据。现在的一些数据集常常涉及非传统的数据类型的数据分布。

    数据挖掘的起源

    image

    数据挖掘任务

    数据挖掘任务分为下面两大类:

    1.预测任务

    2.描述任务:其目标是导出概括数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常)。本质上,描述性数据挖掘任务通常是探查性的,并且常常需要后处理技术验证和解释结果。

    四种主要数据挖掘任务:

    image

    (1)预测建模:涉及以说明变量函数的方式为目标变量建立模型。有两类预测建模任务:分类,用于预测离散的目标变量;回归,用于预测连续的目标变量。

    (2)关联分析:用来发现描述数据中强关联特征的模式,所发现的模式通常用蕴涵规则或特征子集的形式表示。由于搜索空间是指数规模的,关联分析的目标是以有效的方式提取最有趣的模式。关联分析的应用包括找出具有相关功能的基因组、识别用户一起访问的Web页面、理解地球气候系统不同元素之间的联系等。

    (3)聚类分析:旨在发现紧密相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类似。

    (4)异常检测:识别其特征显著不同于其他数据的观测值。这样的观测值称为异常点或离群点。异常检测算法的目标是发现真正的异常点。而避免错误地将正常的对象标注为异常点

  • 相关阅读:
    [No000037]操作系统Operating Systems操作系统历史与硬件概况History of OS & Summaries!
    [No000036]操作系统Operating Systems系统调用的实现System_Call
    [No000035]操作系统Operating System之OS Interface操作系统接口
    [No000034]知乎-长期接收碎片化知识有什么弊端?
    [No000033]码农网-如何锻炼出最牛程序员的编码套路
    [No000032]程序员的年龄天花板
    [No000031]操作系统 Operating Systems 之Open the OS!
    [No000030]程序员节发点别的:中国教育整个把人脑子搞坏了-易中天
    [No00002F]3步,教你如何分解需求
    [No00002E]关于大数据,你不知道的6个迷思
  • 原文地址:https://www.cnblogs.com/yifdu25/p/8315807.html
Copyright © 2011-2022 走看看