zoukankan      html  css  js  c++  java
  • 机器学习:数据清洗及工具OpenRefine

      数据分析中,首先要进行数据清洗,才可以继续训练模型,预测等操作。

      首先介绍一下什么是数据清洗(定义来自 百度百科,有删减)

      数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。而数据清洗的任务是过滤那些不符合要求的数据,过滤。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。

      残缺数据:通过算法KNN,回归,判定树分析,填补上残缺的数据。

      错误数据:主要是噪声数据。通过聚类,回归,分箱等手段剔除孤立点;还可以通过数据特征分布,剔除脱离分布的噪声数据。

      重复数据:剔除相似度大于阈值的数据。

      下面就介绍一款数据清洗的工具OpenRefine

    OpenRefine 下载地址:    https://github.com/OpenRefine/OpenRefine

    OpenRefine 教程下载地址:    http://download.csdn.net/detail/gattaca2011/6940325

    转置请注明出处:http://www.cnblogs.com/rongyux/

    后续更新中。。。

  • 相关阅读:
    监控里的主码流和子码流是什么意思
    监控硬盘容量计算
    一个能让你了解所有函数调用顺序的Android库
    电工选线
    oracle linux dtrace
    list all of the Oracle 12c hidden undocumented parameters
    Oracle Extended Tracing
    window 驱动开发
    win7 x64 dtrace
    How to Use Dtrace Tracing Ruby Executing
  • 原文地址:https://www.cnblogs.com/rongyux/p/5378302.html
Copyright © 2011-2022 走看看