zoukankan      html  css  js  c++  java
  • (五)数据编码是干什么

    一、数据编码主要三个

    1. 数据正规化(Data Normalization)

    • 将数据重新分布在一个特定的范围内(0~1)
      • 年龄 VS. 年薪
    • 数据正规化的方法
      • 极值正规化(Min-Max Normalization)
      • Z-分数正规化(Z-Score Normalization)

       2.数据一般化(Data Generalization)

    • 数据的概念阶层(Concept Hierarchy)
      向上提升
        • 会员地址用城市或是北中南东四区取代

    3.数据精简  

    • 记录精简(Record Reduction)
    • 域值精简(Value Reduction)
    • 字段精简(Attribute Reduction)

    二、数据正规化常用方法

    1.极值正规化(Min-Max Normalization)

        

        2.Z-分数正规化(Z-Score Normalization)

     

    三.数据一般化的常用方法

     数据型态的转换(Data Type Transformation)---两种形态数据之间的互转:类别转数值型;数值型转类别
    • 1.类别型转换成数值型数据
      • 连续性指派(Continuousness Arbitrary)
        • 学历(以入学年龄取代):小学(6)、国中(12)、高中(15)、大学(18)、硕士(22)
        • 性别(以逾期概率取代) :男、女


    •2. 数值型转换成类别型数据
      • 数据离散化(Data Discretization)
      • 利用集群法将数值型态数据分群,接着将群集取合适名称,再利用群集的名称代替群集内所包含的数值型数据,转换成类别型数据

    •3. 为什么要数值一般化?

      数值型字段常常模型不稳定的来源之一。

    • 常常我们会发现分类模型在训练数据集的预测准确度很高,但在测试数据集中的准确度却大幅度下滑
    • 其中一个相当大的原因就是,许多的输入字段(尤其是数值型输入字段),在目标字段值上的分布,训练数据集与测试数据集的差异很大

      •4. 数值一般化的优点?

    对数值字段作离散化,有下列数个优点
      • 1可使数据精简,降低数据的复杂度,让数据更容易被解释
      • 2可支持许多无法处理数值型字段的分类算法
        • 例如,贝氏分类(Bayesian Classification)算法、以关联规则(Association Rules)为基础的分类算法等
      •3 可提高分类器的稳定性,进而提升分类模型的准确度
      •4可找出输入字段在目标字段上的趋势(Trend),有助于未来的解

      • 5 然而,数值字段离散化除了让数据精简、稳定模型外,如何让分析人员易于理解与解释也是非常重要的  

              一个易于理解与解释的离散化结果是,输入字段在目标字段上能够看出明显的趋势性(Trend)

    四、数据一般化之--数值转类别方法

      分离技术(Discretization):切割出数个区间来取代值域上众多的数据数值

    • 依据对数据的认知、专家的建议、普遍存在的现象,将数据数值分离出数个区间
    • 年龄可以分离出下列三个区间,(0, 30]、(30,60]、(60,120],并分别对应到 ‘青年’、‘中年’ 和 ‘老年’ 等三个数据数值

    常用的分离技术:装箱法(Binning Method)
      • 1.等宽(Equal-Width-Interval)装箱法

    在使用者所给定之箱子个数n下,依据排序过后数据数值之最大值与最小值切割成n个等宽箱子
      • 以年龄而言,在使用者所给定之箱子个数为3下,每一个箱子的宽度为 (36-28+1) /3 = 3
        • 箱子一:28, 29, 30
        • 箱子二:31, 32
        • 箱子三:35, 36


      • 2.等分(Equal-Frequency-Interval)装箱法
        • Equal-Size-Interval Binning Method
        • Histogram Equalization Binning Method

    • 在使用者所给定之箱子个数n下,依据数据数值的数量切割成n个数量相等箱子

    • 会员数据表中总共有7笔数据记录,在用户所给定之箱子个数为3下,每一个箱子可装载之数据笔数为为7/3 = 2.33,经四舍五入后为2
      • 箱子一:28, 29
      • 箱子二:30, 31
      • 箱子三:32, 35, 36

     

  • 相关阅读:
    Powershell数据处理
    Powershell About Active Directory Group Membership of a domain user
    Powershell About Active Directory Server
    Oracle Schema Objects——Tables——TableStorage
    Oracle Schema Objects——Tables——TableType
    English Grammar
    Oracle Database Documentation
    Oracle Schema Objects——Tables——Oracle Data Types
    Oracle Schema Objects——Tables——Overview of Tables
    What is Grammar?
  • 原文地址:https://www.cnblogs.com/liyuewdsgame/p/13200951.html
Copyright © 2011-2022 走看看