- Linux
1.HDFS 分布式文件系统
2.MapReduce并行计算框架
3.Hive 数据仓库 - sqoop 数据集成工具HDFS<->RDBMS
5.用户行为分析项目
大数据产生的三个助推力
1.互联网产生的非结构化数据(TB PB以上)
2.传统名数据库在处理海量非结构化数据产生的瓶颈
3.分布式和搜索技术(云计算、爬虫)
12-13 午高峰
18-19 晚高峰
21-22 夜高峰
抖音的推荐机制:
1.中心化、流浪池原则(关注->同城->垂直领域 -> tag- ^)
小流量池到大流量池 作品权重(点赞量、评论量、转发量、完播率)
2.叠加推荐
账号权重
资料权重
作品权重
大数据算法的加权
3.抖音引流的核心
8~15秒
选择分类(标题、标签)
不要植入硬广告
大数据的数据来源
互联网数据
结构化
word、excel文件
半结构化、
css、js
非结构化
视频、音频、图像(字节流)
物联网数据
行业/企业数据
OA、HR、ERP(SAP)
大数据技术流程
可视化呈现->数据分析挖掘->数据存储->数据清洗->数据采集
大数据技术架构图
大数据项目-分布式离线计算框架