大数据技术框架
大数据技术框架主要包含6个部分,分别是数据收集、数据存储、资源管理、计算框架、数据分析和数据展示,每部分包括的具体技术如图1.1所示。
大数据的特点
大数据的特点可以用“4v”来表示,分别为volume、variety、velocity和value,下面具体介绍。
·海量性(volume):大数据的数据量很大,每天我们的行为都会产生大批量数据。
·多样性(variety):大数据的类型多种多样,比如视频、音频和图片都属于数据。
·高速性(velocity):大数据要求处理速度快,比如淘宝“双十一”需要实时显示交易数据。·
价值性(value):大数据产生的价值密度低,意思是说大部分数据没有参考意义,少部分数据会形成高价值,比如私家汽车安装的摄像头,大部分情况下是用不到的,但是一旦出现“碰瓷”等现象就会很有价值。
大数据在各个行业中的应用
大数据的本质是发现数据规律,实现商业价值。在生活中有很多大数据应用的场景,包括金融、经济、医疗和体育行业等。例如在金融行业中,支付宝平台通过大数据进行消费者信用评分,金融机构利用大数据进行金融产品的精准营销。在医疗行业中通过分析病人特征和疗效数据,找到特定病人的最佳治疗方案;还可以在病人档案方面应用高级分析,确定某类疾病的易感人群。在体育行业中可以通过分析数据来制定战术、进行运动员能力评估,定制最佳训练方案。
大数据计算模式
常见的大数据计算模式分为4类,如图1.2所示。
·批处理计算又称为离线计算,是针对大规模历史数据的批量处理,如MapReduce。·
流计算是针对流数据的实时计算,可以实时处理产生的数据。商业版的有IBM InfoSphere Streams和IBM StreamBase,开源的有Storm和S4(Simple Scalable Streaming System),还有一部分是企业根据自身需求而定制的,如Dstream(百度)。
·图计算是针对大规模图结构数据的处理,常用于社交网络,如Pregel、GraphX、Giraph(FaceBook)、PowerGraph和Hama等。
·查询分析计算是针对大规模数据的存储管理和查询分析,如Hive、Cassandra和Impala等。