zoukankan      html  css  js  c++  java
  • Scrapy爬虫的基本使用

    Scrapy爬虫的使用步骤
    步骤1:创建一个工程和Spider模板
    步骤2:编写Spider
    步骤3:编写Item Pipeline
    步骤4:优化配置策略
    Scrapy爬虫的数据类型
    Request类;Response类:Item类
    Request类
    class scrapy.http.Request()
    Request对象表示一个HTTP请求
    由Spider生成,由Downloader执行
    属性和方法
    url method headers body meta copy

    callback(callable):指定一个回调函数,该回调函数以这个request的response作为第一个参数。如果未指定callback,则默认使用spider的parse()方法。

    Response类
    class scrapy.http.Response()
    Response对象表示一个HTTP响应
    由Downloader生成,由Spider处理 
    属性和方法
     
    Item类
    class scrapy.item.Item()
    Item对象表示一个从HTML页面中提取的信息内容
    由Spider生成,由Item Pipeline处理
    Item类似字典类型,可以按照字典类型操作
    Scrapy爬虫提取信息的方法
    Scrapy爬虫支持多种HTML信息提取方法
    Beautiful Soup
    lxml
    re
    XPath Selector
    CSS Selector
    CSS Selector的基本使用 

     

  • 相关阅读:
    知识要点
    SQL语法(包括建库、建表、建视图、查询、增加、删除、修改)
    SQL语句(建库、建表、修改语句)
    比较好的电影网站
    crud创建,修改,删除,查询
    代码创建与操作数据库
    数据库
    数组与集合
    结构体
    类的运用
  • 原文地址:https://www.cnblogs.com/tingtin/p/13129371.html
Copyright © 2011-2022 走看看