Storm简介:
Storm起源Twitter开源的一个类似于Hadoop的实时数据处理框架,不过两则还是有区别的,Hadoop是批量处理数据,而Storm处理的是实时的数据流。
Storm应用场景:
1.推荐系统:实时跟新模型查询并推荐,根据下单或者加入购物车推荐相关商品。
1.网站统计:实时销量,统计流量(PV,UV)。
3.监控预警系统,各个金融系统(金融风控,信用卡反欺诈)。
4.日志处理:处理系统中海量日志数据。
Storm特性:
1.适用场景非常广泛:实时处理和更新,持续并行化查询,满足大量场景。
2.可伸缩性高:扩展计算任务,只需要加机器并提高并行度(主要是是使用zookeeper作为中间件保证各个节点通信)。
3.保证数据无丢失:保证每条消息都会被处理。
4.系统健壮:集群容易管理,可轮流重启节点。
5.容错性好:消息处理过程出现异常,会进行重试,这也是各个分布式计算框架具备的一个特性。
6.语言无关系:客户端可以使用多种语言编写。
Storm和Hadoop对比
1.storm分布式实时计算,适合在线的实时的大数据处理,常用于实时性要求较高的地方。
2.hadoop是分布式批处理计算,批处理方式去处理数据,经常用于对已经在的大量数据挖掘、分析。实时计算方面不擅长。