zoukankan      html  css  js  c++  java
  • scrapy框架初识

    什么是框架

      其实就是一个具有很强通用性且集成了很多功能的项目模板

    如何学习框架

      掌握框架的功能,可以熟练使用每一种功能即可

    爬虫框架--scrapy框架:

      在爬虫中集成了异步,高性能的数据解析,高性能的持久化存储.....

    scrapy环境的安装:

          a. pip3 install wheel
    
          b. 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
    
          c. 进入下载目录,执行 pip3 install Twisted‑17.1.0‑cp35‑cp35m‑win_amd64.whl
    
          d. pip3 install pywin32
    
          e. pip3 install scrapy
    测试:在终端中录入scrapy 如果没有报错就是安装的没有问题

    a.打开cmd窗口  对a进行操作  安装wheel

    b.下载twisted    链接:www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

    c.进入下载twisted的目录,点击shift+右键   打开powershell窗口    在powershell窗口里面输入 pip install .Twisted-18.9.0-cp36-cp36m-win_amd64.whl 

    d.e.在powershell窗口输入 pip3 install pywin32  pip3 install scrapy 对着两个插件进行安装

    a.b.c.d.e步骤都完成后 在窗口界面输入scrapy 如果没有报错 就是安装完成

    scrapy的使用流程:
    -1. 创建一个工程:scrapy startproject ProName
    -2.cd ProName
    -3. 创建一个爬虫文件:scrapy genspider spiderName www.xxx.com
      - settings.py里面设置
    ROBOTSTXT_OBEY = False
    -4. 执行工程:scrapy crawl spiderName
      -去除日志:scrapy crawl spidername --nolog
      -只显示错误日志 在settings.便宜文件中增加 LOG_LEVEL = 'ERROR' 这句话后就只显示错误日志,其他日志不显示
      -settings.py文件中的USER_AGENTE 可以做UA伪装
      数据解析在paras下 response.xpath() 通过scrapy封装的xpath来解析

     1.打开pycham,创建一个工程

     

    2.cd到工程目录下面

    3.创建一个爬虫文件

    # -*- coding: utf-8 -*-
    import scrapy
    
    
    class FirstSpider(scrapy.Spider):
        #爬虫文件的名称:爬虫文件的唯一标识
        name = 'first'
        #允许的域名,这里会限定起始url列表的url,这里一般都会注释掉:
        # allowed_domains = ['www.baidu.com']
        #起始的url列表:列表中存放的url都会被scrapy进行自动的请求发送
        start_urls = ['https://www.baidu.com/','https://www.xxfgfhfghfg.com']
    
        #是用来解析起始的url列表返回的响应数据
        def parse(self, response):
            print(response.text)
            response.xpath('fdsfds')

    4.执行工程:scrapy crawl spiderName

     settings里面的设置

    #只显示错误日志  
          - LOG_LEVEL = 'ERROR'
    #item的管道设置
          - ITEM_PIPELINES = {
                       'qiubaiByPages.pipelines.QiubaibypagesPipeline': 300,
                    }   
    #反爬机制     
          - ROBOTSTXT_OBEY = False
    #UA检测
          - USER_AGENT = 'Mozil'
     
     
     
  • 相关阅读:
    CIFAR10-网络训练技术
    论文-Deep Residual Learning for Image Recognition
    Origin-作图相关
    OnCtlColor
    查看电脑MAC地址
    改变静态文本框和PictureControl的背景颜色
    MFC在对话框中的Picture contrl控件中添加icon图标,并改变icon图标的背景色与对话框背景色一致
    char型数组学习
    条件编译
    ASCII码
  • 原文地址:https://www.cnblogs.com/l1222514/p/11040882.html
Copyright © 2011-2022 走看看