一、基本概念
1、数据
-
实际上,人类的一切语言文字、图形图像、音像记录、所有感官可以察觉的事物,只要被记下来,能够查询到,就是数据(data)。
-
数据计量单位已从Byte、KB、MB、GB、TB发展到PB、EB、ZB、YB甚至BB来衡量。大数据一般T(太)级以上。
-
常见的数据存储单位
- 1Byte = 8 bit
- 1K(千) = 1024Byte
- 1MB(兆) = 1024K
- 1G(吉) = 1024M
- 1T(太) = 1024G
- 1P(拍) = 1024T
- 1E(艾) = 1024P
- 1Z(泽) = 1024E
- 1Y(尧) = 1024Z
- 1B(布) = 1024Y
- 1N(诺) = 1024B
- 1D(刀) = 1024N
2、大数据
2.1、概念
指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力海量、高增长率和多样化的信息资产。
2.2、主要解决的问题
- 海量数据的存储问题
- 海量数据的计算问题
2.3、特点(5V)
- 大
- 数据的采集、计算、存储量都非常庞大
- 多
- 种类和来源多样化。
- 种类:结构化、半结构化、非结构化
- 常见来源:网络日志、音频、视频、图片等。
- 值
- 大数据价值密度相对较低
- 如何通过强大的机器算法更迅速的完成数据的价值提炼,是大数据时代亟待解决的难题。
- 快
- 数据增长速度快、处理速度快、获取数据的速度也要快。
- 处理数据的效率就是企业生命。
- 信
- 数据的准确性和可信赖度,即数据的质量。
2.4、应用场景
-
电商方面
-
传媒方面
-
金融领域
-
交通方面
-
电信方面
-
安防方面
-
医疗方面
3、大数据业务分析基本步骤
-
明确分析目的和思路
-
数据收集
-
数据处理
- 数据清洗
- 数据转化
- 数据提取
- 数据计算
-
数据分析
-
数据展现
-
报告撰写
4、大数据部门的(典型)组织结构
- 平台组(大数据运维)
- 大数据平台环境搭建
- 集群性能监控
- 集群性能调优
- 数据仓库组(数据分析)
- ETL工程师
- Hive工程师-数仓建模和数据分析
- 数据挖掘组
- 算法工程师
- 推荐系统工程师
- 用户画像工程师
- 报表开发组
- JAVAEE工程师
本文内容学习自 8天零基础入门大数据