zoukankan      html  css  js  c++  java
  • scrapy

    rapy的安装:pip install scrapy
    创建scrapy的项目: scrapy startproject myspider
    创建scrapy爬虫:在项目目录下执行 scrapy genspider itcast itcast.cn
    运行scrapy爬虫:在项目目录下执行 scrapy crawl itcast -o a.json/a.jl(一行,没有中括号)
    检查代码: scrapy check
    查看当前查重列表:scrapy list
    保存打开:scrapy view 网址
     
    pip:设置数据库,数据处理,清洗,去重
    midd:修改状态码,异常处理,改写请求,重新发起请求
     
    解析并获取scrapy爬虫中的数据
    response.xpath方法的返回结果是一个类似list的类型,其中包含的是selector对象,操作和列表一样,但是有一些额外的方法
    extract() 返回一个包含有字符串的列表
    extract_first() 返回列表中的第一个字符串,列表为空没有返回None
    scrapy管道的基本使用:
    完善pipelines.py中的process_item函数
    settings.py中设置开启pipeline
     

    scrapy.Request的更多参数

    scrapy.Request(url[,callback,method="GET",headers,body,cookies,
    meta,dont_filter=False])
    
    参数解释
    1. 中括号中的参数为可选参数
    2. callback:表示当前的url的响应交给哪个函数去处理
    3. meta:实现数据在不同的解析函数中传递,meta默认带有部分数据,比如下载延迟,请求深度等
    4. dont_filter:默认为False,会过滤请求的url地址,即请求过的url地址不会继续被请求,对需要重复请求的url地址可以把它设置为Ture,比如贴吧的翻页请求,页面的数据总是在变化;start_urls中的地址会被反复请求,否则程序不会启动
    5. method:指定POST或GET请求
    6. headers:接收一个字典,其中不包括cookies
    7. cookies:接收一个字典,专门放置cookies
    8. body:接收一个字典,为POST的数据

    Scrapy设置Settings

    见:https://www.jianshu.com/p/df9c0d1e9087

  • 相关阅读:
    如何使用和关闭onbeforeunload 默认的浏览器弹窗事件
    用js怎么来判断我已点击了窗体中“关闭”按钮?
    js实现时分秒毫秒计时器
    史上最详细的JavaScript事件使用指南
    【JavaScript】图片加载由模糊变清晰 —— 图片优化
    熟悉 hybrid
    深入理解事件委托
    架构师 资料
    常用工具网站集合
    前端路由实现.
  • 原文地址:https://www.cnblogs.com/lab-zj/p/12166695.html
Copyright © 2011-2022 走看看