zoukankan      html  css  js  c++  java
  • 数据挖掘【3】公开数据与数据挖掘

    不论做数据分析,还是做数据挖掘,最根本的东西就是数据,没有数据,所有的东西都是纸上谈兵、空中楼阁,数据在哪里?

    数据很多时候是掌握在政府部门手里,国家的农业、环境、交通、天气等方方面面的信息都不在个人手里,分散于各个国家部门。目前的现状是很难获取这些信息,打通在一起,从而使这些数据形成了一个个的数据孤岛。现在有越来越明显的一个趋势,把这些数据打开,从封闭的小集团内部,面向社会公开,这就叫公开数据。

    公开数据有两个层面的含义,首先要从法律上公开,允许别人合法的获取数据,提供获取接口,而不能是使用类似爬虫的技术进行抓取,其次,从技术上要容易获取,比如说格式,公开的数据应该使用标准数据格式。

    了解了这么多概念,是时候为数据挖掘下一个定义了:从巨大、不完全、充满噪音的数据中提取有趣、有用、隐藏的模型的自动化过程。

    人类进行数据分析已经上千年了,均值、方差都是在做数据分析,只是到了现在,面对海量的数据,传统方式已经无法应对,必须利用计算机,通过算法来处理这些巨大、不完全、充满噪音的数据,从中提取有趣、有用,并且是隐藏的不为人知的模型,从而为决策提供支持。

    这里需要注意,数据挖掘并不是一个完全自动化的过程,它需要经常与人进行交互:收集数据,挑选属性,进行预处理,解释某些表象。

    再来看看数据挖掘的流程,数据经过预处理成为信息,再经数据挖掘成为知识,通过决策模型最终成为决策支持,需要经历从不同的数据源,进行融合、提取、转换、装载,进入数据仓库,进行不同种类的分析挖掘这样的一个流程。也可以抽象的理解为:定义问题、采集数据、处理数据、数据模型化、解释评价、正负反馈、实施部署这些步骤。

    官网:http://www.lenbor.com
  • 相关阅读:
    趁热讲讲skin.xml支持的标签和attributes
    如何配置和编译ogre 1.7.0 + cegui 0.7.1
    关于OGRE基础教程6中CEGUI的layout文件can not locate的问题
    skin.xml皮肤配置讲解
    OCX控件注册相关(检查是否注册,注册,反注册)
    重回博客园继续我的 GUI库
    窗口类的定义
    UI库需要完成的任务
    屏幕截图代码
    深入C++的默认构造函数1
  • 原文地址:https://www.cnblogs.com/lenbor/p/13038895.html
Copyright © 2011-2022 走看看