zoukankan      html  css  js  c++  java
  • 结构化数据、半结构化数据、非结构化数据——Hadoop处理非结构化数据

    刚开始接触Hadoop ,指南中说Hadoop处理非结构化数据,学习数据库的时候,老师总提结构化数据,就是一张二维表,那非结构化数据是什么呢?难道是文本那样的文件?经过上网搜索,感觉这个帖子不错

    网址:http://blog.sina.com.cn/s/blog_49c1385f01014bf6.html

    1. 结构化数据(structured  data):
    传统的关系数据模型、行数据,存储于数据库,可用二维表结构表示。
    数据模型:
    二维表
     
    2. 半结构化数据(semi-structured data):
    类似XML、HTML之类,自描述,数据结构和内容混杂在一起。
    数据模型:
    树、图
     
    3. 非结构化数据(unstructured data):
    各种文档、图片、视频/音频等。
    数据模型:
     
    PS :MapReduce对于非结构化或半结构化数据非常有效,因为在处理数据时才对数据进行解释,换句话说,MapReduce 输入的键和值并不是数据固有的属性,而是由分析数据的人员来选择的。
  • 相关阅读:
    面试经验
    二叉树和递归
    优先队列
    队列问题
    书法学习资料
    栈的问题
    Git常用命令
    字母大小写转换
    深入类中的方法[8] - 抽象方法与抽象类
    深入类中的方法[7] - 关于 inherited
  • 原文地址:https://www.cnblogs.com/yytlmm/p/4837353.html
Copyright © 2011-2022 走看看