zoukankan      html  css  js  c++  java
  • 数据挖掘【2】什么是数据?

            什么叫数据,在上一篇中,一直在说数据这个,数据那个的,那么到底什么是数据?其实往往越是这种特别基础的概念,反而不好定义,什么是数据,很难有一个准确的定义,那它大概的定义就是一些定量的或者定性的属性值。

            一个人站在这里,身高多少,体重多少,年龄,性别,婚姻状况,这些都是一些属性,这些东西就构成了所谓的数据。

            数据是最底层的一种表现形式,我们经常听到“信息”这个词,那么信息和数据是不一样的,信息是高一层面的东西,数据要做一些处理之后,才能称之为信息,这一点需要特别注意。

            简单介绍数据相关的一些概念:

            数据有各种各样的类型,连续(Continuous),二元(Binary),离散(Discreate),字符串(String),符号(Symbolic)。

            从存储方式讲,在物理上,数据存在硬盘上都是0与1,不管声音、图像、文字概莫能外,而逻辑上,有二维表,立方体,网络等诸多结构。

            目前数据中存在的问题,一来,五花八门的数据,种类不同,需要转化。二则,真实数据往往存在很多错误数据或者不完整的数据。

            在当今这个年代,讲数据就不能不讲大数据,Gartner公司认为,满足高数据量(high-volume),高产生速度(high-velocity),高数据种类(high-variety)这三个特点的,才能称之为大数据,Mckinsey公司从另一个角度进行了定义,认为传统方式无法去存储、处理的数据既是大数据。

    官网:http://www.lenbor.com
  • 相关阅读:
    洛谷 P1903 【模板】分块/带修改莫队(数颜色)
    BZOJ 2038: [2009国家集训队]小Z的袜子(hose)
    LibreOJ #6208. 树上询问
    LibreOJ #6002. 「网络流 24 题」最小路径覆盖
    hdu 3861 The King’s Problem
    洛谷 P2868 [USACO07DEC]观光奶牛Sightseeing Cows
    洛谷 P2905 [USACO08OPEN]农场危机Crisis on the Farm
    洛谷 U3348 A2-回文数
    洛谷 P1001 A+B Problem
    LibreOJ #2130. 「NOI2015」软件包管理器
  • 原文地址:https://www.cnblogs.com/lenbor/p/12966729.html
Copyright © 2011-2022 走看看