zoukankan      html  css  js  c++  java
  • 数据挖掘【3】公开数据与数据挖掘

    不论做数据分析,还是做数据挖掘,最根本的东西就是数据,没有数据,所有的东西都是纸上谈兵、空中楼阁,数据在哪里?

    数据很多时候是掌握在政府部门手里,国家的农业、环境、交通、天气等方方面面的信息都不在个人手里,分散于各个国家部门。目前的现状是很难获取这些信息,打通在一起,从而使这些数据形成了一个个的数据孤岛。现在有越来越明显的一个趋势,把这些数据打开,从封闭的小集团内部,面向社会公开,这就叫公开数据。

    公开数据有两个层面的含义,首先要从法律上公开,允许别人合法的获取数据,提供获取接口,而不能是使用类似爬虫的技术进行抓取,其次,从技术上要容易获取,比如说格式,公开的数据应该使用标准数据格式。

    了解了这么多概念,是时候为数据挖掘下一个定义了:从巨大、不完全、充满噪音的数据中提取有趣、有用、隐藏的模型的自动化过程。

    人类进行数据分析已经上千年了,均值、方差都是在做数据分析,只是到了现在,面对海量的数据,传统方式已经无法应对,必须利用计算机,通过算法来处理这些巨大、不完全、充满噪音的数据,从中提取有趣、有用,并且是隐藏的不为人知的模型,从而为决策提供支持。

    这里需要注意,数据挖掘并不是一个完全自动化的过程,它需要经常与人进行交互:收集数据,挑选属性,进行预处理,解释某些表象。

    再来看看数据挖掘的流程,数据经过预处理成为信息,再经数据挖掘成为知识,通过决策模型最终成为决策支持,需要经历从不同的数据源,进行融合、提取、转换、装载,进入数据仓库,进行不同种类的分析挖掘这样的一个流程。也可以抽象的理解为:定义问题、采集数据、处理数据、数据模型化、解释评价、正负反馈、实施部署这些步骤。

    官网:http://www.lenbor.com
  • 相关阅读:
    server2012/win8 卸载.net framework 4.5后 无法进入系统桌面故障解决【转】
    Entity Framework中AutoDetectChangesEnabled為false時更新DB方法
    git常用命令备忘录
    MSSQL日誌傳輸熱備份注意事項
    c#生成唯一编号方法记录,可用数据库主键 唯一+有序
    Angular 隨記
    使用dumpbin命令查看dll导出函数及重定向输出到文件【轉】
    UML类图与类的关系详解【转】
    知識隨記
    session不会过期
  • 原文地址:https://www.cnblogs.com/lenbor/p/13038895.html
Copyright © 2011-2022 走看看