关于套牌车识别系统的卡口数据存储管理,采用并行数据库存储,请查资料,给出一个方案,存储几百GB数据到TB级数据,硬件环境如何建立,硬件系统要求的配置和数量等,数据的管理方法等。
背景
根据现有的交通数据进行初步的分析进行计算,平均每条记录为85个字节。按照1T=2^40
字节来初步估计的话,大概有1.29*10^10
条记录,也就是10亿记录。传统关系型数据应付起来有点吃力。这里采用hbase进行数据存储,使用phoneix4.2.2进行数据的管理。同时也兼容hive以及spark-sql。
硬件环境&配置要求
这里参考nosql标准性能测试中用到的机器配置以及拓扑结构。数据量大小为100GB。
- 测试数据概要
- 网络拓扑结构
- 服务器配置
环境搭建
基于开源分布式计算平台进行软件环境的搭建,包括:
- hadoop2.5.2
- hbase0.98
- spark1.1.1
- hive0.14
- phoneix4.2.2
数据管理
采用hdfs作为底层文件系统已经资源管理框架,并且使用hbase作为卡口的数据存储。结合最新apache-phoenix进行数据的管理,可以通过采用jdbc的方式进行数据的管理。为了便于开发人员验证实验想法,集成spark-sql和hive进行快速计算。
大致草图
测评参考
Query: select count(1) from table over 10M and 100M rows. Data is 5 narrow columns. Number of Region Servers: 4 (HBase heap: 10GB, Processor: 6 cores @ 3.3GHz Xeon)
Query: select count(1) from table over 1M and 5M rows. Data is 3 narrow columns. Number of Region Server: 1 (Virtual Machine, HBase heap: 2GB, Processor: 2 cores @ 3.3GHz Xeon)
更多性能指标移步这里apache-phoenix。
其他nosql产品
更多性能对比数据可以查看伯克利大学关于大数据分析性能基准测试。