scrapy的demo - 走看看

zoukankan html css js c++ java

scrapy的demo
流程：

1.scrapy startproject python123demo　　生产爬虫工程

2.scrapy genspider demo python123.io　产生爬虫

3.配置产生的spider

4.编写item pipeline

5.优化配置策略

6.运行爬虫，获取网页

文件信息：

1.scrapy.cfg　　　　　　　　　部署Scrapy框架

2.python123demo（文件夹）　　scrapy框架用户自定义Python代码

3.__init__　　　　　　　　　　初始化脚本

4.items.py　　　　　　　　　　Items代码模块（继承类）

5.middlewares.py　　　　　　middlewares代码模块（继承类）

6.pipelines.py　　　　　　　　pipelines.py代码模块（继承类）

7.settings.py　　　　　　　　　scrapy爬虫的配置文件（优化功能可以修改）

8.spiders（文件夹）　　　　　 spiders代码模块（继承类）

9.__pycache__（文件夹）　　缓存目录（无需修改）

10.__init__.py　　　　　　　　初始文件（无需修改）

demo.py模块
# -*- coding: utf-8 -*- import scrapy class DemoSpider(scrapy.Spider): name = 'demo' #allowed_domains = ['python123.io'] start_urls = ['http://python123.io/ws/demo.html'] def parse(self, response): fname = response.url.split('/')[-1] with open (fname,'wb') as f: f.write(response.body) self.log('Saved file %s.'% fname)
start_urls方法中有yield，产生生成器，对其调用每次产生一个url链接
查看全文

相关阅读:
MySQL常用函数
 SQL之join
java并发编程之三--CyclicBarrier的使用
 java并发编程之二--CountDownLatch的使用
 java并发编程之一--Semaphore的使用
 微信小程序 bindcontroltap 绑定没生效
 报错：Syntax error on tokens, delete these tokens
java创建类的5种方式
 数据类型转换
 JS数据结构算法---数组的算法

原文地址：https://www.cnblogs.com/zsc329/p/9365690.html

Copyright © 2011-2022 走看看