zoukankan      html  css  js  c++  java
  • 大数据

    数据来源:1、主动获取  2、被动获取

        技术选择:1、storm (官方的、淘宝的):过来的数据要及时处理

             2、flume  :缺陷:处理流数据非常慢,优势:对流可以实施多层过滤

             3、kafka  :包括了flume的基本功能,对流的处理更快,缺陷:不能加过滤器(解决方案:flume+kafka)

             4、speak streaming:实时性不太高,性能相对稳定

    技术方案:爬虫数据:1:存储  or 交给flume做分流             2、kafka处理后到存储介质          3、spark Streaming    4、ML/AI     5、SQL                 (备注:每种技术不是必须的,顺序不定)

    数据存储:1、本地   2、关系型数据库(最慢:千万级数据之内)   3、hdfs  4、redis(数据缓冲,减缓数据处理压力)   5、kafak  6、Hbase  7、es  8、solr(不是结构化的数据)   维护者:AI

    redis定期存储到HDFS   or   存储到kafka,通过flume写入到HDFS

    Hbase:能不用尽量不用,开发维护的成本很高。优点:当集群足够大,roleKey匹配。替代者:小数据量:redis,数据量大:Cassandra+caidy   ,  cudu(原子操作)+inpala(亿级别,速度不快),presto(面向PB、TB级别:京东(有中文文档))

    Hive(数据仓库)与数据库:仓库不支持修改(需要删除重新写)

  • 相关阅读:
    对jquery的 attr()和prop()理解
    你真的了解javascript吗
    js代码的一些小技巧
    导出导入数据库
    Mysql授权root用户远程登录
    Centos 忘记root密码怎么办?
    linux挂载概念简述:
    centos7防火墙设置
    centos 防火墙
    centos共享目录
  • 原文地址:https://www.cnblogs.com/jswang/p/9007079.html
Copyright © 2011-2022 走看看