zoukankan      html  css  js  c++  java
  • 那个爬虫框架好(简单对比)

      对于爬虫框架本身来说,都是很优秀的,说那个更好,不如说那个更适合公司的业务需求。比如javaweb项目中需要某些网站的金融系列新闻,得每天定时去抓取一些数据,你就可以考虑WebMagic框架,能够轻松的将爬虫代码逻辑模块化到项目中,毫无违和感。当然也可以是别的框架,只要合适就好(以上爬虫框架就不介绍了,真要说说,估计得长篇大论了.....可以查阅相关资料进行详细的了解)。

      这些开源的爬虫框架大都是把复杂的问题解决掉,然后封装,在之后就是我们用的很简单、方便,不必考虑那些URL去重、代理、线程池管理等等问题,当然建议看看源码多想想他们的设计思想以及实现逻辑

      我们在以前项目中用的爬虫框架是java语言的WebMagic和python语言的PySpider。普通java爬虫项目中都可以多多考虑WebMagic和WebCollector绝对够用(反正用啥都得考虑动态js抓取,图片验证码识别等等那些反爬虫机制,这一定是个持久战,哈哈),上手简单易扩展,注重业务开发就好。如果大型分布式、业务够复杂、需求点够多、数据够庞大下的估计用哪个框架也得进行二次扩展了。所以选那个框架不必那么纠结。

      另外搞爬虫不得不推荐python了,易学,语法简单,一个简单的爬虫程序可能半个小时就搞定了。虽然在调试上很费时间,但是当有一定经验了,很多问题就可以规避掉或者bug定位很快。当然也有痛点,但是这些痛点对于整个项目成本来说完全可以接受。

      

       

    业精于勤荒于嬉。
  • 相关阅读:
    Mybatis Interceptor 拦截器原理 源码分析
    Mybatis SqlSessionTemplate 源码解析 原理理解
    DRUID连接池的实用 配置详解以及监控配置
    Oracle 单行函数
    Oracle复杂查询及总结
    Oracle数据更新、事务处理、数据伪列
    Oracle表的创建及管理
    Oracle建表、更新、查询综合练习
    Oracle约束
    Oracle集合、序列
  • 原文地址:https://www.cnblogs.com/mottled/p/7994150.html
Copyright © 2011-2022 走看看