zoukankan      html  css  js  c++  java
  • 爬虫_糗事百科(scrapy)

    糗事百科scrapy爬虫笔记

    1.response是一个'scrapy.http.response.html.HtmlResponse'对象,可以执行xpath,css语法来提取数据

    2.提取出来的数据,是一个'Selector'或者是一个'SelectorList'对象,如果想要获取其中的字符串,那么应该执行'getall'或者'get'方法

    3.getall方法,获取'Selector'中的所有文本,返回的是一个列表

    4.get方法,获取的是'Selector'中的第一个文本,返回的是一个str类型

    5.如果数据解析回来,要传给pipelines处理,那么可以使用'yield'来返回;如果不使用yield,则要创建一个列表存储数据,最后返回这个列表

    6.item:建议在'items.py'中定义好模型,以后就不要使用字典

    7.pipelines:这个是专门用来存储数据的,其中有三个方法常用:

        'open_spider(self, spider)':当爬虫打开时执行

        'process_item(self, item, spider)':当爬虫有item传过来的时候会被调用

        'close_spider(self, spider)':当爬虫关闭的时候调用

        要激活pipelines,在'settings.py'  68行

    代码地址 

  • 相关阅读:
    策略模式浅谈
    J.U.C 系列之 Tools
    RCP 主题切换
    C#利用WebClient 两种方式下载文件
    淘宝联盟
    微信公众账号开发练习1成为开发者
    第一次使用mssql游标
    C#利用com操作excel释放进程
    免费空间主机屋试用体验
    Ajax简单聊天B/S
  • 原文地址:https://www.cnblogs.com/MC-Curry/p/9488401.html
Copyright © 2011-2022 走看看