zoukankan      html  css  js  c++  java
  • 入坑DM导论第一章绪论笔记

    //本学习笔记只是记录,并未有深入思考。

    1.什么是数据挖掘?

     数据挖掘是数据库中发现必不可少的一部分。

     数据预处理主要包括(可能是最耗时的步骤):

    1.融合来自多个数据源的数据

    2.清洗数据以消除噪声和重复的观测值

    3.选择与当前数据挖掘任务相关的记录和特征。

    2.数据挖掘要解决的问题

    1.可伸缩性:面对海量数据,算法必须是可伸缩的。例如:当药不能处理的数据放入内存的时候,需要非内存算法;使用抽样技术或者开发并行和分布算法也可提高伸缩性。

    2.高维性:具有成百上千的属性的数据集也很常见,比如基因特征;并且由于维度的增加,算法计算复杂度将会迅速升高。

    3.异种数据和复杂数据:即非传统的数据类型:如包含半结构化的文本和超链接的Web页面,

    4.数据所有权与分布:数据在地理上分属于多个站点和机构,需要开发分布式数据挖掘技术,

    5.非传统分析:传统的统计方法基于假设-检验模式,但目前的数据分析需要的假设量太大,那么需要自动地产生假设和评估。

    图中给出了数据挖掘和其他学科的关系。

    1.3数据挖掘任务

     预测任务:根据其他属性的值,预测特定属性的值。

    描述任务:导出数据中潜在能够描述关系的模式(相关、趋势、聚类、轨迹和异常),这通常是探查性的,需要进行验证和解释。 

    根据数据类型可以分为:

    分类:对离散型数据

    回归:对连续型数据

    2.分析方式概括

    预测任务比如对鸢尾花进行分类。

    关联分析:用于发现数据中强关联的特征;比如找出功能相关的基因组,发现购物者同时购买的商品等。

    聚类分析:发现紧密相关的观测值组群,对顾客进行分组。

    异常检测:识别特征显著不同于其他特征的观测值;检测欺诈软件、网络攻击等;

  • 相关阅读:
    在IIS上发布Web(使用VS2005)
    ASP.NET Web Service应用发布到IIs怎么做
    (转)在 Visual Studio 2010 中创建 ASP.Net Web Service
    matlab函数之diag
    Coursera《machine learning》--(6)逻辑回归
    UFLDL教程(五)之self-taught learning
    UFLDL教程之(三)PCA and Whitening exercise
    matlab的常用快捷键
    matlab函数之bsxfun
    Coursera《machine learning》--(14)数据降维
  • 原文地址:https://www.cnblogs.com/BlueBlueSea/p/9545381.html
Copyright © 2011-2022 走看看