zoukankan      html  css  js  c++  java
  • 数据清洗

    脏数据的特征

    每个与数据打交道的人都应该听说过“脏数据”(dirty data)一词。脏数据会破坏数据集的完整性,它的某些特征是不完整,不准确,不一致,或者重复的。有必要指出的是,数据的清洗是必不可少的。从乱糟糟的数据无法生产出良好的结果。你可能已经听说过“垃圾进,垃圾出”(Garbage in, garbage out.)这句话了。

    不完整

    “不完整”是指,有些必要特征空缺。例如,假设你的任务是预测房价,而“房子的区域”对于良好的预测至关重要,但这个值却是缺失的。这样的话预测房价可能对你来说就有很大的挑战性了,并且你的模型也可能表现欠佳。

    不一致

    “不准确”和“不一致”就是指,技术上来说数值是正确的,但在具体语境下却是错误的。例如,当一名员工更改了自己的地址,并且未更新,又或者,某项数据有很多版本,但数据科学家拿到的是旧版。

    重复

    “重复”是一个常见的问题。这里作者分享了一个以前在电子商务公司工作时发生的事情。“按照计划,当访问者单击“收取收据”按钮时,网站会向服务器发送一个响应,这就使得我们能够计数已收取了收据的用户数量。该网站运行良好,直到一天某个变化发生了,但我对此一无所知。前端开发人员添加了另一个响应,在有人成功收取了收据时发送。理由是某些收据可能短缺,他们想记下单击了该按钮以及收取了收据的访问者。那时,两个响应会被发送到同一日志表。我看着我的报表工具,发现收据的数量似乎在一夜之间翻了一番!因为我前一天部署了一个模型,所以想当然的认为是自己新模型的功劳。记得当时我还在内心里暗暗地为自己的小模型鼓掌致意了呢,后来才意识到只是因为重复计算而已!”

    数据科学家是个性感的工作?我信你个鬼!

  • 相关阅读:
    Go语言基础--1.1 变量的声明
    基本语法
    弹性盒子修改
    弹性盒子内容
    弹性盒子
    响应式列重置
    栅格系统
    布局容器
    额外按钮
    可消失的弹出框
  • 原文地址:https://www.cnblogs.com/vvlj/p/12598479.html
Copyright © 2011-2022 走看看