不论做数据分析,还是做数据挖掘,最根本的东西就是数据,没有数据,所有的东西都是纸上谈兵、空中楼阁,数据在哪里?
数据很多时候是掌握在政府部门手里,国家的农业、环境、交通、天气等方方面面的信息都不在个人手里,分散于各个国家部门。目前的现状是很难获取这些信息,打通在一起,从而使这些数据形成了一个个的数据孤岛。现在有越来越明显的一个趋势,把这些数据打开,从封闭的小集团内部,面向社会公开,这就叫公开数据。
公开数据有两个层面的含义,首先要从法律上公开,允许别人合法的获取数据,提供获取接口,而不能是使用类似爬虫的技术进行抓取,其次,从技术上要容易获取,比如说格式,公开的数据应该使用标准数据格式。
了解了这么多概念,是时候为数据挖掘下一个定义了:从巨大、不完全、充满噪音的数据中提取有趣、有用、隐藏的模型的自动化过程。
人类进行数据分析已经上千年了,均值、方差都是在做数据分析,只是到了现在,面对海量的数据,传统方式已经无法应对,必须利用计算机,通过算法来处理这些巨大、不完全、充满噪音的数据,从中提取有趣、有用,并且是隐藏的不为人知的模型,从而为决策提供支持。
这里需要注意,数据挖掘并不是一个完全自动化的过程,它需要经常与人进行交互:收集数据,挑选属性,进行预处理,解释某些表象。
再来看看数据挖掘的流程,数据经过预处理成为信息,再经数据挖掘成为知识,通过决策模型最终成为决策支持,需要经历从不同的数据源,进行融合、提取、转换、装载,进入数据仓库,进行不同种类的分析挖掘这样的一个流程。也可以抽象的理解为:定义问题、采集数据、处理数据、数据模型化、解释评价、正负反馈、实施部署这些步骤。