大数据
大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。
大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。
适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,
云计算平台,互联网,和可扩展的存储系统。
主要解决:海量数据的存储和海量数据分析计算问题
基本的存储单位:
bit Byte KB MB GB TB PB EB ZB YB BB NB DB
1Byte = 8bit
1K=1024Byte
1MB=1024K
1G=1024M
1T=1024G
1p=1024T
大数据的特点
1、Volume(大量)
2、Velocity(高速)
3、Variety(多样)
结构化数据:数据库/文本为主
非结构化数据:网络日志、音频、视频等
4、value(低价值密度)
价值密度的高低与数据总量的大小成反比
如何对价值数据“提纯”称为目前大数据背景下待解决的难题
大数据的应用场景
1、物流仓储:大数据分析系统主力商家精细化运营、提升销量、节约成本
2、零售:分析用户的消费习惯,为用户购买商品提供方便,提升销量
3、旅游:深度结合大数据旅游能力与旅游行业需求,共建旅游产业园管理,智慧服务和营销
4、商品广告推荐:给用户推荐可能喜欢的项目
5、保险,金融,房产
6、人工智能
业务流程分析
大数据部门的组织结构
主要两个方向:
1、数据分析
2、数据挖掘