zoukankan      html  css  js  c++  java
  • 我对结构化和非结构数据的理解

            如今网上对大数据有结构化和非结构化的争论,前者如XML。后者象网页上的文字、图片、音视频等内容。孰优孰劣。在这里我不想去评论它。

    我想说的是,应该换一个角度来看待这个问题。就是说。不管这些数据不管它外在表象是什么,到了CPU、磁盘层面。它们都是一串数据流,或者称字节数组。

    假设让这些数据可以被计算机处理和产生价值,它的前提是必须可以被CPU理解和计算。所以。在这个概念基础上。我在Laxcus体系设计里,对数据採用的是一种可格式化(formatable)的处理方案。

    这个方法简单来说就是这样:数据进入磁盘和CPU前,它们首先做一个预处理,被拆解成CPU理解的。或者可以依照一种即定规则,可以被CPU理解的格式。如今Laxcus的全部数据,都是依照这种方案来採集、整理、处理数据。这样做的优点有两个:1.由于规则明白。体系设计相对就简单了;2.在CPU层面。数据的处理速度会非常快。

    典型的象SQL.LIKE这样模糊检索,在数据库里都非常慢,可是在Laxcus分布环境下。这种数据处理也可以立即获得结果。

  • 相关阅读:
    C++基础学习1: C++布尔类型
    Hadoop-Yarn-框架原理及运作机制
    mapreduce shuffle 和sort 详解
    线程生命周期
    JVM 内存模型及垃圾回收
    利用Hive分析nginx日志
    mysql 30大优化策略
    hive 分组排序,topN
    Java核心卷笔记(一)
    Java 核心卷学习笔记(一)
  • 原文地址:https://www.cnblogs.com/mthoutai/p/7027969.html
Copyright © 2011-2022 走看看