zoukankan      html  css  js  c++  java
  • 数据挖掘笔记(1)-概念、数据准备

    一.概念:

        数据挖掘:运用基于计算机的方法,从数据中获得有用之时的整个过程。

        两个基本目标:预测和描述。

        数据挖掘的基本任务:(1)分类  (2)回归  (3)聚类 (4)总结概括 (5)关联建模 (6)变化和偏差检测

        数据挖掘的过程: 陈述问题,阐明假设->收集数据->预处理数据->模型评估(挖掘数据)->解释模型,得出结论

        数据仓库的开发过程概括为3个阶段:建模、构建和部署

        完成数据挖掘所耗费的精力:数据准备>商业目标>数据挖掘>巩固结果

    二:数据准备

       2.1 原始数据的表示

                  数据样本是数据挖掘的基本组成部分。每个样本都用几个特征来描述,每个特征都用不同类型的值。两种常见的类型数值型和分类型。

            数值型值包括实型变量和整型变量,如年龄、速度或长度。数值型特征有两个重要的属性:其值有顺序关系和距离关系。

            分类型(长叫做符号型)变量没有上述两种关系,分类型变量的两个值可以相等或不等。它们只建立一种等同关系,例如:眼睛颜色、性别、国籍。

            具有n个值的分类型变量可以转换成n个二进制数值型变量,即一个二进制数值对应分类型变量的一个值。

                  另一种基于变量值的变量分类方法是,根据它是连续性变量还是离散型变量来分类。连续型变量也称为定量型或度量型变量。在大型数据集     

            中,连续型变量用实型或整型值来表示。离散型变量也叫定性型变量。一种特殊的离散型变量是周期变量。

                  最后,另一种数据分类维度是基于数据与时间有关的行为特征。大多数数据挖掘方法更适合静态数据,挖掘动态数据时,常常需要特殊的考虑  

            和预处理。

                  产生大多数数据挖掘问题的原因是,大量的样本具有不同类型的特征。此外,这些样本往往是高维度的,这就意味着它们有极多的可测量特征

            。在高维度空间中密度和两点间距离的传统含义改变了,因此需要重新考虑、评估传统概念。

       2.2 原始数据的特征

                  杂乱的数据来源和含义;根据已有的数据甚至丢失的数据来建模。失真数据、方法上错误的步骤选择、滥用数据挖掘工具、模型过于理想化、

            未考虑数据中各种不确定性和模糊性的模型-----所有的这些都可能导致数据挖掘方向性错误。

                  数据挖掘中一个最关键的步骤是初始数据集的准备和转换。

                  数据准备阶段有两个中心任务:

                  (1)把数据组织成一种标准形式,以便于数据挖掘工具和其他基于计算机的工具处理(标准形式是一个关系表)。

                  (2)准备数据集,使其能得到最佳的数据挖掘效果。

       2.3 原始数据转换

                  标准化、数据平整、差值和比率

       2.4 对丢失数据的处理

                  对带有和不带有丢失值的特征生成多种数据挖掘解决方案,然后对他们进行分析和解释。

       2.5 时间相关数据

       2.6 异常点分析

                  异常点定义:在大型数据集中通常有一些不符合数据模型的一般规则,这些样本和数据集中的其他数据有很大的不同或不一致,叫做异常点。

                  异常点的检测方案的主要类型有:

                  图形或可视化技术、基于统计的技术、基于距离的技术、基于模型的技术  (这几种方法的具体介绍略)

         

  • 相关阅读:
    开发常见错误之 :Missing artifact com.sun:tools:jar 1.7.0
    开发常见错误之 : Detected both log4j-over-slf4j.jar AND slf4j-log4j12.jar
    kafka集群部署
    kafka
    Oracle 学习之触发器
    CloudSetuper
    erlang :打开界面工具的命令
    erlang 二进制中 拼接 变量或者函数 报错
    Python内部机制。
    AOP (面向切面编程)
  • 原文地址:https://www.cnblogs.com/zhizhan/p/3500403.html
Copyright © 2011-2022 走看看