一:分析
1.分析过程:
-》需求分析
-》数据清洗:源表
-》格式化
-》过滤字段
-》use表
-》数据分析
-》数据导出
2.日志(第一条)
二:加载源表
3.Apache官网的关于日志的加载的案例(一些服务器产生的日志)
4.在线书写正则表达式regexpal的工具
5.对日志进行书写正则表达式
6.自定义实现北风的日志加载
6.加载数据
7.展示部分结果
全部加载成功。
三:过滤字段
8.创建bf_use表(过滤出需要的字段)
存储格式为parquet。