Storm学习中遇到的问题整理

zoukankan html css js c++ java

Storm学习中遇到的问题整理

在编写storm代码来进行实时分析的时候遇到了一些问题，有些的确令人比较头痛，现在稍微做一下整理。数据流向（本地-Spout-Bolt-Hdfs）

1数据的输入输出文件的路径选择

因为在此项目中数据是放在本地磁盘的，所有就有两种放数据的途径，一种是直接通过spout接受本地数据发送到任务中，另一种是先把文件数目进行整理（缩小）放到hdfs系统，让后通过spout读取hdfs里面的数据，后来实际表明前一种更加适合（后一种受到了mapreduce的影响），现在提一下后一种遇到的问题，后一种的话是spout发射完一个文件的数据以后一定要删除掉（不然会一直发射），但是这样子就没有一个有效的方式来判断是否已经发送完成，在这里花了很多时间，常常导致数据还没有发送完成就删掉了。

并且在复制文件到hdfs的过程中spout会一直从不断增加的数据中获取（后果可想而知）。

文件输出路径同样遇到了上诉的问题，看来收到mapreduce的模式影响很大，一种是直接输出到本地磁盘，另一种是输出到Hdfs里面，这里选择后者就更加合适了，因为如果是在集群下运行程序的话，那么spout和bolt任务是随机分配的，并无法指定那个节点来运行写文件的bolt，这样子很可能后续代码需要获取的是主节点的数据，结果数据却被写到了另一个从节点，还要判断那个节点的数据是否已经写完，文件传输过程，而hdfs就不一样了，文件只要写到hdfs以后从任何一个节点都可以读取上面的数据。另外在判断文件是否已经传输完毕使用了判断文件大小的方法，以半秒钟为间隔获取文件的大小，当相邻文件的大小不在变化则表明数据已经被处理完毕，可以进行接下来的运算。

2bolt输出数据到hdfs里面遇到的问题

这个问题也困扰了很久，因为bolt是一行行输出的数据，如果写入到hdfs里面的话就要不断的新建文件-写入文件-关闭写入流，这里就会遇到一个问题，每次新建文件都会导致之前的数据被删掉，然后我goole了一下bolt写数据到hdfs的方法，那里也没有提供往数据的末尾继续添加的append方法，但是却意外的发现了官方提供的一个第三方jar包storm-hdfs-0.9.6(下载的时候一定要和storm版本号一致，这个方法是0.9.3以后出现的），他专门提供了往hdfs写文件的方法，并提供了丰富的参数来供用户选择（包括当文件满足多大以后新建一个文件继续写入，已经多长时间写入一次数据，每一行以什么为数据的分割符，输出文件的格式等）。因为我的需求是这一次运算要把上一次运算的结果文件都删掉，所以我以10m为文件的最大限度，下一次运算时候只保留上一次文件的最小的数据（必须保留上一次运行最后新建的文件，不然会报错）。

3本地调试可以但是放到集群就报找不到类的问题，这个问题百分十九十九都是缺少jar包导致，要保证每个子节点对应的路径下面都有工程所需要的jar包。随意maven是个很好的选择。

查看全文

相关阅读:
ansible-playbook最佳实践
 zabbix 优化之表分区
 ansible-playbook 打通ssh无秘钥
 jQuery 1.9 移除了 $.browser 的替代方法
 也谈前端基础设施建设
 滚动视差网站欣赏
 css常见的快捷开发代码汇总（长期更新）
如何让搜索引擎抓取AJAX内容？
Bookmarklet编写指南
 20个网页设计师应该学习的CSS3经典教程实例

原文地址：https://www.cnblogs.com/lisi2016/p/6863898.html