zoukankan html css js c++ java

scrapy的第一天学习

首先scrapy startproject '文件名' 创建你所需要的文件名字

然后在spiders 里面创建你的爬虫规则，

shell里面操作
cd tutorial

然后

scrapy genspider books http://books.toscrape.com/#创建py文件，创建name爬虫名字，创建需要爬取的网站

spiders::表达的更像一个填空题

爬虫从哪个网址开始爬区？

对于一个已下载的页面，提取其中的哪些数据？

爬取完当前页面后，接下来爬取哪个或哪些页面？

import scrapy

class BooksSpider(scrapy.Spider):
    name='books'
    start_urls=['http://books.toscrape.com/']
    def parse(self,response):
        for book in response.css('article.product_pod'):
            name=book.xpath('./h3/a/@title').extract_first()
            price=book.css('p.price_color::text').extract_first()
            yield {
                'name':name,
                'price':price
            }

        next_url=response.css('ul.pager li.next a::attr(href)').extract_first()
        if next_url:
            next_url=response.urljoin(next_url)
            yield scrapy.Request(next_url,callback=self.parse)

然后scrapy crawl books -o books.csv books是代表你爬虫内命名的name的名字。 -o 创建你所爬取数据的所储存的文件名字倒出csv格式

实现一个Spider只需要4个步骤

1:继承scrapy.Spider

2:为Spider取名

3:设定起始爬区点

4:实现页面解析函数

查看全文

相关阅读:
20级训练赛Round #5
【Java】equals 和 == 的区别
 [apue] linux 文件访问权限那些事儿
 用 shell 脚本制造连接频繁中断的场景
 用 shell 脚本做 tcp 协议模拟
 c++ 11 是如何简化你的数据库访问接口的
 使用 shell 脚本自动对比两个安装目录并生成差异补丁包
 Minecraft类游戏地形生成机制
 Aery的UE4 C++游戏开发之旅（5）字符&字符串
 基于随机定位的地图信息获取方式

原文地址：https://www.cnblogs.com/zj0724/p/9113210.html