zoukankan      html  css  js  c++  java
  • pyspider框架学习

    一、crawl()方法学习:

      1、url:爬去是的url,可以定义单个,可以定义为url列表。

      2、callback:回调函数,指定该url使用哪个方法来解析。

      3、age:任务的有效时间。

      4、priority:爬取任务的优先级,值越大,对应的请求越会优先被调度。

      5、retries:定义重试次数,默认值是3.

      6、itag:设置判定网页是否发生变化的节点值,在爬取时会啊判定当前节点是否和上次爬去的节点相同。

      7、auto_recrawl:

      8、method:是http请求的方式,他默认是get,如果想发起post请求,可以将method设置为post。

      9、params:用params定义get方式请求的参数(为字典格式)。

      10、data:用此参数传递post方式提交的表单数据。

      11、files:上传文件,需要指定文件名。

      12、user-agent:爬取时使用的use-agent。

      13、headers:爬取时使用的headers。

      14、cookies:爬取使用的cookies,为字典格式。

      15、proxy:爬取时使用的代理。

      16、fetch_type:会开启phantomJS渲染。

      17、js_script:页面加载完毕之后的JavaScript脚本。

      18、Save:用于在不同方法之间传递参数。

    二、任务区分:

      1、pyspider判断两个任务:url的MD5值对应任务的唯一id。

      修改计算id的方式来实现不同的任务区分:

        

        2、全局配置:

        

        3、定时爬取:

        

  • 相关阅读:
    019. Remove Nth Node From End of List
    021.Merge Two Sorted Lists
    自定义starter
    servlet里面转发与重定向
    贪婪模式与非贪婪模式
    localstack 线程隔离
    Algorithm & Data structure
    some interview question
    阿里-菜鸟国际-出口大团队招新啦
    JDK8漫谈——集合更强大
  • 原文地址:https://www.cnblogs.com/monty12/p/10051009.html
Copyright © 2011-2022 走看看