zoukankan      html  css  js  c++  java
  • scrapy爬虫框架实例一,爬取自己博客

      本篇就是利用scrapy框架来抓取本人的博客,博客地址:http://www.cnblogs.com/shaosks

      scrapy框架是个比较简单易用基于python的爬虫框架,相关文档:http://scrapy-chs.readthedocs.org/zh_CN/latest/ 

      几个比较重要的部分:

      items.py:用来定义需要保存的变量,其中的变量用Field来定义,有点像python的字典

      pipelines.py:用来将提取出来的Item进行处理,处理过程按自己需要进行定义

      spiders:定义自己的爬虫

      爬虫的类型也有好几种:

      1)spider:最基本的爬虫,其他的爬虫一般是继承了该最基本的爬虫类,提供访问url,返回response的功能,会默认调用parse方法

      2)CrawlSpider:继承spider的爬虫,实际使用比较多,设定rule规则进行网页的跟进与处理, 注意点:编写爬虫的规则的时候避免使用parse名,因为这会覆盖继承的spider的的方法parse造成错误。   其中比较重要的是对Rule的规则的编写,要对具体的网页的情况进行分析。

      3)XMLFeedSpider 与 CSVFeedSpider 

      代码实现:

      items.py下的

      

      pipelines.py

       

      myspider.py

      

      settings.py

       

      执行命令导出csv文件

      D:workscrapyCodecnblog> scrapy crawl myspider -o spider.csv

    结果数据

    要获取动态渲染的数据, scrapy框架本身没有获取这种数据的功能,要利用第三方库scrapy-splash,下载:https://pypi.python.org/pypi/scrapy-splash#downloads

    这个以后再做.

  • 相关阅读:
    07noip 统计数字 解题报告
    07noip 矩阵取数游戏 解题报告
    10 noip 乌龟棋 解题报告
    10 noip 引水入城 解题报告
    让我们来看一看C++ 简短自序
    curl post请求封装
    array_merge与数组加
    composer设置autoload自己的代码
    mysql使用笔记
    android入门:zxing学习笔记(六)
  • 原文地址:https://www.cnblogs.com/shaosks/p/6895010.html
Copyright © 2011-2022 走看看