zoukankan      html  css  js  c++  java
  • scrapy框架_简单基础命令操作

    如何创建一个Scrapy的框架

    #TestOne是名字
    scrapy startproject  TestOne
    

    在spiders子目录中创建一个爬虫文件

    # spiderName 名字
    # www.xxx.com起始url
    scrapy genspider  spiderName www.xxx.com
    

    执行工程的指令

    #spiderName是在spiders子目录中创建一个爬虫文件的名字
    scrapy crawl  spiderName
    #取消打印日志,会取消报错,报错返回的是空
    scrapy crawl  spiderName -nolog
    #!!!但是,在配置文件settings.py文件中添加参数
    #显示指定类型的日志信息
    LOG_LEVEL="ERROR"
    
    
    
    #在配置文件settings.py文件中修改参数
    是否遵从robotst协议
    ROBOTSTXT_OBEY = False
    
    

    scrapy创建好的spiders子目录中创建好的爬虫文件内容

    import scrapy
    
    
    class FirstSpider(scrapy.Spider):
        #爬虫文件的名称:就是爬虫源文件唯一标识
        name = 'first'
        #允许的域名:用来限制start_urls那些url可以进行请求发送
        allowed_domains = ['www.baidu.com','https://www.sogou.com/',]
        #启始url的列表:该列表存放的url会被scrapy自动请求发送
        start_urls = ['http://www.baidu.com/',
                      'https://www.sogou.com/',]
    
        #用于数据解析:response参数表示就是请求成功后对应的响应对象
        def parse(self, response):
            print(response)
    
  • 相关阅读:
    原生sql实现restful接口调用
    Yii框架实现restful 接口调用,增删改查
    http状态码
    封装一个使用cURL以POST方式请求https协议的公众方法
    YII框架实现 RBAC
    nginx开启fileinfo扩展
    微信登录
    Linux系统基础优化及常用命令
    Vim编辑器
    linux基本命令
  • 原文地址:https://www.cnblogs.com/SkyRabbit/p/13714856.html
Copyright © 2011-2022 走看看