大数据 - 走看看

zoukankan html css js c++ java

大数据

数据来源：1、主动获取 2、被动获取

　　　　技术选择：1、storm （官方的、淘宝的）：过来的数据要及时处理

　　　　　　　　　2、flume ：缺陷：处理流数据非常慢，优势：对流可以实施多层过滤

　　　　　　　　　3、kafka ：包括了flume的基本功能，对流的处理更快，缺陷：不能加过滤器（解决方案：flume+kafka）

　　　　　　　　　4、speak streaming：实时性不太高，性能相对稳定

技术方案：爬虫数据：1：存储 or 交给flume做分流 2、kafka处理后到存储介质 3、spark Streaming 4、ML/AI 5、SQL （备注:每种技术不是必须的，顺序不定）

数据存储：1、本地 2、关系型数据库（最慢：千万级数据之内） 3、hdfs 4、redis（数据缓冲，减缓数据处理压力） 5、kafak 6、Hbase 7、es 8、solr（不是结构化的数据）维护者：AI

redis定期存储到HDFS or 存储到kafka，通过flume写入到HDFS

Hbase：能不用尽量不用，开发维护的成本很高。优点：当集群足够大，roleKey匹配。替代者：小数据量：redis，数据量大：Cassandra+caidy ， cudu（原子操作）+inpala（亿级别，速度不快），presto（面向PB、TB级别：京东（有中文文档））

Hive（数据仓库）与数据库：仓库不支持修改（需要删除重新写）

查看全文

相关阅读:
在Linux下修改图形界面的分辨率
 Linux 常用命令
 读ActiveAndroid源码（三）
读ActiveAndroid源码（二）
读ActiveAndroid源码（一）
Android中图片的文件储存
 构造器内部的多态方法的行为
 摸触事件分发的小实践——关闭View滑动
 【Java】关于类的初始化
 git配置http代理

原文地址：https://www.cnblogs.com/jswang/p/9007079.html

Copyright © 2011-2022 走看看