zoukankan      html  css  js  c++  java
  • 数据挖掘入门

    1、数据的离散化

    有些数据本身很大, 自身无法作为数组的下标保存对应的属性。如果这时只是需要这堆数据的相对属性, 那么可以对其进行离散化处理。当数据只与它们之间的相对大小有关,而与具体是多少无关时,可以进行离散化。

    例如:

    ①原数据:1,999,100000,15;处理后:1,3,4,2;

    ②原数据:1234567、123456789、12345678、123456

    排序:123456<1234567<12345678<123456789

    =>1<2<3<4
    那么这4个数可以表示成:2、4、3、1
     
    2、概念分层
    通过使用高层的概念(比如:老年,中年,青年)来替代底层的属性值(比如:实际的年龄数据值)来规约数据。概念分层可以用树来表示,树的每一个节点代表一个概念(比如:按地区划分世界)
     
    3、过拟合
    一个假设在训练数据上能够获得比其他假设更好的拟合, 但是在训练数据外的数据集上却不能很好地拟合数据,此时认为这个假设出现了过拟合的现象。出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少。
  • 相关阅读:
    linux下18种监测网络带宽方式
    python常用正则表达式
    python获取当前路径
    python获取本机的IP
    Linux 误卸载自带python后的解决办法
    jmeter分布式运行
    jmeter非GUI的运行命令
    linux下安装jmeter
    java基础笔记(8)
    java基础笔记(7)
  • 原文地址:https://www.cnblogs.com/GjqDream/p/11760910.html
Copyright © 2011-2022 走看看