zoukankan      html  css  js  c++  java
  • scrapy的demo

    流程:

    1.scrapy startproject python123demo  生产爬虫工程

    2.scrapy genspider demo python123.io 产生爬虫

    3.配置产生的spider

    4.编写item pipeline

    5.优化配置策略

    6.运行爬虫,获取网页

    文件信息:

    1.scrapy.cfg            部署Scrapy框架

    2.python123demo(文件夹)  scrapy框架用户自定义Python代码

    3.__init__            初始化脚本

    4.items.py           Items代码模块(继承类)

    5.middlewares.py         middlewares代码模块(继承类)

    6.pipelines.py          pipelines.py代码模块(继承类)

    7.settings.py         scrapy爬虫的配置文件(优化功能可以修改)

    8.spiders(文件夹)       spiders代码模块(继承类)

    9.__pycache__(文件夹)     缓存目录(无需修改)

    10.__init__.py         初始文件(无需修改)

    demo.py模块

    # -*- coding: utf-8 -*-
    import scrapy
    
    
    class DemoSpider(scrapy.Spider):
        name = 'demo'
        #allowed_domains = ['python123.io']
        start_urls = ['http://python123.io/ws/demo.html']
    
        def parse(self, response):
            fname = response.url.split('/')[-1]
            with open (fname,'wb') as f:
                f.write(response.body)
            self.log('Saved file %s.'% fname)

    start_urls方法中有yield,产生生成器,对其调用每次产生一个url链接

  • 相关阅读:
    报表图片不显示的问题(一)
    数据库时区问题
    变色
    给div加滚动条,当内容超过它的范围的时候
    Apple Style Effect
    easyui发生重叠现象的原因
    mysql 获取字符串长度
    纯css的带下拉菜单的导航条
    jQuery验证控件jquery.validate.js使用说明+中文API
    background-position 用法详细介绍
  • 原文地址:https://www.cnblogs.com/zsc329/p/9365690.html
Copyright © 2011-2022 走看看