zoukankan      html  css  js  c++  java
  • 数据挖掘入门

    1、数据的离散化

    有些数据本身很大, 自身无法作为数组的下标保存对应的属性。如果这时只是需要这堆数据的相对属性, 那么可以对其进行离散化处理。当数据只与它们之间的相对大小有关,而与具体是多少无关时,可以进行离散化。

    例如:

    ①原数据:1,999,100000,15;处理后:1,3,4,2;

    ②原数据:1234567、123456789、12345678、123456

    排序:123456<1234567<12345678<123456789

    =>1<2<3<4
    那么这4个数可以表示成:2、4、3、1
     
    2、概念分层
    通过使用高层的概念(比如:老年,中年,青年)来替代底层的属性值(比如:实际的年龄数据值)来规约数据。概念分层可以用树来表示,树的每一个节点代表一个概念(比如:按地区划分世界)
     
    3、过拟合
    一个假设在训练数据上能够获得比其他假设更好的拟合, 但是在训练数据外的数据集上却不能很好地拟合数据,此时认为这个假设出现了过拟合的现象。出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少。
  • 相关阅读:
    2010上交:计算表达式
    添加子评论
    上传图片
    settings配置 文件操作
    django 操作前端数据
    静态文件配置
    render httprequest
    上传文件配置
    Django为什么要跳转到不同的页面来实现不同的功能
    定义日志器
  • 原文地址:https://www.cnblogs.com/GjqDream/p/11760910.html
Copyright © 2011-2022 走看看