pyspider参数注解 - 走看看

zoukankan html css js c++ java

pyspider参数注解
新建爬虫的初始化代码，接下来针对这段代码作简单解释
#!/usr/bin/env python # -*- encoding: utf-8 -*- # Created on 2021-12-06 10:15:41 # Project: test from pyspider.libs.base_handler import * class Handler(BaseHandler): crawl_config = { } @every(minutes=24 * 60) def on_start(self): self.crawl('__START_URL__', callback=self.index_page) @config(age=10 * 24 * 60 * 60) def index_page(self, response): for each in response.doc('a[href^="http"]').items(): self.crawl(each.attr.href, callback=self.detail_page) @config(priority=2) def detail_page(self, response): return { "url": response.url, "title": response.doc('title').text(), }
- crawl_config：爬虫的全局参数设置，例如请求头和cookies可以在这里设置（传入关键字及对应的参数即可）
- on_start(self)：爬虫开始爬取的入口
- crawl：和requests有相同的功能，可以支持 get(默认) 和 post，常用的参数有
更多参数使用可以查看官方文档。
- response
- index_page和detail_page只是初始脚本中的回调函数，除了on_start,其他的函数名可以自定
- @every(minutes=24 * 60) 设置多久执行一次（24*60为一天一次，因此可以每天都爬一次获取数据）
- @config
查看全文

相关阅读:
idea vue.js插件安装
 vue.js 开发环境配置
 Stream grouping-storm的流分组策略
 Kafka web console安装
 call 方法 (Function) (JavaScript)
bind 方法 (Function) (JavaScript)
CSS选择器、优先级和常用的选择器
 CSS3.0盒子模型：display:-webkit-box
有了自己的博客了
 Javascript进阶篇——(DOM—节点---获取浏览器窗口可视区域大小+获取网页尺寸)—笔记整理

原文地址：https://www.cnblogs.com/roboot/p/15648700.html

Copyright © 2011-2022 走看看