zoukankan html css js c++ java

scrapy instantiation

start

from scrapy.cmdline import execute
execute(['scrapy', 'crawl', 'jokespider'])

items.py

import scrapy

class JokejiItem(scrapy.Item):
    title=scrapy.Field()
    url=scrapy.Field()

class ListItem(scrapy.Item):
    title=scrapy.Field()
    url=scrapy.Field()

spider.py

from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from jokeji.items import JokejiItem,ListItem

class JokespiderSpider(CrawlSpider):
    name = 'jokespider'
    allowed_domains = ['zizi.cn']
    start_urls = ['http://www.zizi.cn']

    rules = [
        Rule(LinkExtractor(allow=r'/listw+.htm'), callback='parse_list', follow=True),
        Rule(LinkExtractor(allow=r'/jokehtml/w+/d+.htm',deny=(r'/list')), callback='parse_item', follow=True),
    ]

    def parse_item(self, response):
        item=JokejiItem()
        item['title']='from content'
        return item

    def parse_list(self,response):
        item=ListItem()
        item['url']="from list........"+response.url
        return item

pipelines.py

class JokejiPipeline(object):
    def process_item(self, item, spider):
        print(item,item__class__,spider)

通过 item__class__ 是什么类来决定如何处理数据

当然 ItemClass() 类里可以加

def __str__(self):

　　return 'ItemClass"

更直观.

查看全文

相关阅读:
面试（5）
面试（五）
面试（4）
面试（四）
面试（三）
面试（2,3）
利用session控制长时间未操作自动退出登录
 一次性清除所有session
动态引进js文件
 Vue--findIndex方法的使用原理

原文地址：https://www.cnblogs.com/pythonClub/p/9841509.html