zoukankan      html  css  js  c++  java
  • 大数据平台架构思考

    笔者早期从事数据开发时,使用spark开发一段时间,感觉大数据开发差不多学到头了,该会的似乎都会了。在后来的实践过程中,发现很多事情需要站在更高的视角来看问题,不然很容易陷入“不识庐山真面目”的境界。最近在思考数据资产管理平台的建设,进行血缘分析开发,有如下感悟:

    大数据平台从数据层面来说,包括数据本身和元数据;从业务层面来说,在数据中心(数据仓库)的基础上,支撑数据分析、数据挖掘,提高其分析、挖掘效率;从管理角度来说,为了提升开发效率,需要利用好组件管理平台,对元数据进行管理,打造数据开发运维平台。

    在此基础上,一个完善的大数据架构,至少包括三个方面:

    1. 开发组件管理平台:用于搭建和管理大数据开发组件,如etl、hdfs、hbase、presto、kerbose等;
    2. 数据资产(元数据)管理平台:元数据采集、元数据管理、血缘分析、数据质量、数据标准、数据指标、数据生命周期管理等。
    3. 开发运维平台:数据脱敏、权限管理、调度管理、开发管理、发布管理、运维监控与预警等等。

    大数据架构设计需要兼顾不同需求,根据不同的数据分析、数据挖掘场景,在资源限制与性能要求下,提供不同的平台方案。

    对于大数据架构师,不仅要熟悉各种组件的使用及其适用场景,还需要熟悉组件管理、元数据管理、开发运维管理等。其搭建的平台,能否提高数据分析效率,能否提高数据挖掘的效率,能否保证数据质量,能否打通整个数据链条等。

  • 相关阅读:
    os.environ的详解
    request.headers.get头部获取内容的缺失
    mysql根据逗号分割的字符串去关联查询另外一个表的数据
    Flask路由中使用正则表达式匹配
    Mac OS下安装mysqlclient遇到的一些坑
    【uWSGI】 listen queue of socket (fd: 3) 错误分析
    redis zset底层实现原理
    计算机网络05 传输层
    计算机网络04 网络层
    计算机网络03 数据链路层
  • 原文地址:https://www.cnblogs.com/small-k/p/9943939.html
Copyright © 2011-2022 走看看