本题其实就是storm的wordcout,需要把一个gz压缩的文件读取,并使用storm计算其pv.
样本 数据:
存储为accesslog.gz
我把它加载到我的虚拟机中/mnt/下。
没有使用trident,刚学习最基本的。
所以把spout的数目设定为1.
把文件路径存储在config 的map中了,其实是想使用参数进行传递,这样更友好。
读取完之后把它存储到一个文件当中。
在这里使用的是调试的模式,如果需要运行在集群中的话,还是需要调整的。
再做一个bolt,专门用来写文件。
Spout used to read logs:
Bolt used to split sentense:
Bolt used to count pv: