zoukankan      html  css  js  c++  java
  • 机器学习:数据清洗及工具OpenRefine

      数据分析中,首先要进行数据清洗,才可以继续训练模型,预测等操作。

      首先介绍一下什么是数据清洗(定义来自 百度百科,有删减)

      数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。而数据清洗的任务是过滤那些不符合要求的数据,过滤。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。

      残缺数据:通过算法KNN,回归,判定树分析,填补上残缺的数据。

      错误数据:主要是噪声数据。通过聚类,回归,分箱等手段剔除孤立点;还可以通过数据特征分布,剔除脱离分布的噪声数据。

      重复数据:剔除相似度大于阈值的数据。

      下面就介绍一款数据清洗的工具OpenRefine

    OpenRefine 下载地址:    https://github.com/OpenRefine/OpenRefine

    OpenRefine 教程下载地址:    http://download.csdn.net/detail/gattaca2011/6940325

    转置请注明出处:http://www.cnblogs.com/rongyux/

    后续更新中。。。

  • 相关阅读:
    大规模机器学习
    机器学习之推荐系统
    SVM实现邮件分类
    机器学习之异常检测
    降维算法学习
    手写数字识别实现
    动态规划训练之十七
    概率期望训练之三
    数据结构训练之四
    绵阳东辰国际test201910.25
  • 原文地址:https://www.cnblogs.com/rongyux/p/5378302.html
Copyright © 2011-2022 走看看