zoukankan      html  css  js  c++  java
  • scrapy框架_简单基础命令操作

    如何创建一个Scrapy的框架

    #TestOne是名字
    scrapy startproject  TestOne
    

    在spiders子目录中创建一个爬虫文件

    # spiderName 名字
    # www.xxx.com起始url
    scrapy genspider  spiderName www.xxx.com
    

    执行工程的指令

    #spiderName是在spiders子目录中创建一个爬虫文件的名字
    scrapy crawl  spiderName
    #取消打印日志,会取消报错,报错返回的是空
    scrapy crawl  spiderName -nolog
    #!!!但是,在配置文件settings.py文件中添加参数
    #显示指定类型的日志信息
    LOG_LEVEL="ERROR"
    
    
    
    #在配置文件settings.py文件中修改参数
    是否遵从robotst协议
    ROBOTSTXT_OBEY = False
    
    

    scrapy创建好的spiders子目录中创建好的爬虫文件内容

    import scrapy
    
    
    class FirstSpider(scrapy.Spider):
        #爬虫文件的名称:就是爬虫源文件唯一标识
        name = 'first'
        #允许的域名:用来限制start_urls那些url可以进行请求发送
        allowed_domains = ['www.baidu.com','https://www.sogou.com/',]
        #启始url的列表:该列表存放的url会被scrapy自动请求发送
        start_urls = ['http://www.baidu.com/',
                      'https://www.sogou.com/',]
    
        #用于数据解析:response参数表示就是请求成功后对应的响应对象
        def parse(self, response):
            print(response)
    
  • 相关阅读:
    Linux手动安装Apache2.4
    Linux 定时任务 crontab
    微信小程序 wxs 使用正则替换字符串
    腾讯云 远程通过端口3306访问MYSQL数据库
    微信小程序点击内容展开隐藏评论文章等
    SGA设置
    oracle 序列
    oracle中lnnvl函数
    union 中null值合并原理
    oracle 事务读一致性(一)
  • 原文地址:https://www.cnblogs.com/SkyRabbit/p/13714856.html
Copyright © 2011-2022 走看看