zoukankan      html  css  js  c++  java
  • 爬虫-爬虫介绍及Scrapy简介

    在编写案例之前首先理解几个问题,1:什么是爬虫2:为什么说python是门友好的爬虫语言?3:选用哪种框架编写爬虫程序

    一:什么是爬虫?

      爬虫 webSpider 也称之为网络蜘蛛,是使用一段编写好的代码所生成的应用程序使其游弋于互联网这个庞大的体系中,帮助我们将想要的内容从目标服务器中搬到我们本地,通

    过解析将所需要的数据结构化入库,为企业或个人决策提供依据。比如股票走势,某产品在淘宝上现存的经销商数量及销量等等

    二:为什么说python是门友好的爬虫语言?

      语言只是门工具,不同的语言侧重的领域不一样,比如c#的.net技术 倾向于 c/s 和b/s架构的应用程序。java可以编写桌面应用程序,web应用程序及嵌入式应用程序等而python也可以编写以上语言所能编写的应用程序。但我们需要明白应用程序的本质是网络传输过程中的请求及响应,也就是说凡是支持网络请求和响应的应用程序所使用的语言都可以编写出爬虫程序而python之所以被爬虫领域所青睐,是因为他有一套成熟的框架体系,例如spider,scrapy等爬虫框架。

    三:选用哪种框架编写爬虫程序

      在解释这个问题之前,需要理解什么是框架?框架的本质是由各个模块组成的具有一定领域倾向且可以帮助我们快速开发应用程序的模板。我们只需要按照模板要求编写代码就可以快速搭建出我们的应用。例如.net中的EF框架,EF框架是一个倾向于处理ORM关系型映射的框架,使用EF和mvc或其他设计模式可以快速搭建出一个基于ORM(关系型映射)的CRM平台。而python中的django框架也是基于ORM(关系型映射)的框架。使用django和mtv(django中的设计模式)同样可以搭建出一个基于orm的crm平台。同样,python为我们提供了一套完善的基于爬虫的框架Scrapy,scrapy封装了爬虫应用程序所需要的模块,使用scrapy不仅能搭建一般爬虫应用也可以搭建出分布式及快速响应和持久化存储的爬虫程序。

      

  • 相关阅读:
    CDOJ 1059 秋实大哥与小朋友 STL(set)+离散化+BIT区间更新单点查询
    hdu 1754 线段树 水题 单点更新 区间查询
    ZOJ 2301 离散化
    hdu 1166 线段树 区间求和 +单点更新 CD模板
    UVA 12299 线段树 ( 单点跟新 , 区间查询)
    TTTTTTTTTTTTT LA 2191 树状数组 稍修改
    TTTTTTTTTTT LA 4329 BIT模版
    POJ 1912 凸包
    对django模型中的objects的理解
    巨蟒python全栈开发django4:url反向解析图解&&模板渲染2
  • 原文地址:https://www.cnblogs.com/SunIan/p/10325267.html
Copyright © 2011-2022 走看看