zoukankan      html  css  js  c++  java
  • scrapy 框架

    selecto创建爬虫

    1、创建项目

    scrapy  startproject [项目名称]

    2、进入项目所在的路径,创建爬虫

    scrapy genspider [爬虫名字] [爬虫的域名]   **爬虫名字不能和项目名称一致

    项目目录结构

    4.response是一个html对象可以执行xpath,css,re语法来提取数据

    5、提取出来的数据是一个selector 或者selectorlist 对象,可以用getall() 或者get()方法获取

    6、getall()方法获取selector中所有的文本 返回一个列表

    7、get()方法获取selector中第一个文本,返回一个str

    8、如果数据解析回来,要传给pipline处理,那么可以用yield来返回,或者收集所有的数据,最后用return来返回

    9、item:建议在item里定义好模型,以后不要经常使用字典。

    10、pipeline:这个专门用来保存数据的,里面有三个方法会经常使用

        open_spider(self, spider)   当爬虫被打开时使用

        process_item(self, item , spider)  当爬虫有item传过来时会被调用

        close_spider(self, spider)  当爬虫关闭的时候会被调用

  • 相关阅读:
    robotframework----模板的使用
    RF执行顺序
    RobotFrameWork(四)变量运算与Evaluate
    RobotFrameWork(三)数据类型
    git 命令
    常用网站
    git 应用
    ie if判断
    移动端rem适配
    绘制三角形(sass)
  • 原文地址:https://www.cnblogs.com/wocaonidaye/p/12734926.html
Copyright © 2011-2022 走看看