zoukankan      html  css  js  c++  java
  • scrapy_创建_调试

    如何创建scrapy项目?

           输入命令:

    scrapy startproject project_name

                  在当前目录下创建名字叫project_name的scrapy项目

      命令格式:scrapy startproject 项目名

    如何启动官方提供的爬虫模版?

           进入project_name这个项目目录下,输入命令

    srapy genspider blog i.cnblogs.com

      命令格式:“srapy genspider 爬虫模块名 域名”

    如何调试scrapy项目?

           在项目目录下新建一个start.py文件,写入:

    #!/usr/bin/python3
    
    from scrapy.cmdline import execute
    
    if __name__ == '__main__':
        execute(['scrapy', 'crawl', 'spider_name', '--nolog'])

    在windows系统,会出现错误:no model win32 如何解决?

    pip install pypiwin32

    调试时候注意点:

           默认scrapy会读取该网页的robots协议,把遵守协议改成False

           ROBOTSTXT_OBEY = True --> False

    如何进行调试?

           scrapy shell   调试网站

    scrapy shell  http://www.cnblogs.com/2bjiujiu/

      通过以下命令:

    response
    

      如果状态200表示获取页面成功,通过response对象进行css或xpath调试

    response.css('#homepage1_HomePageDays_DaysList_ctl00_DayList_TitleUrl_0::text').extract()
    
    response.xpath("//a[@id='homepage1_HomePageDays_DaysList_ctl00_DayList_TitleUrl_0']/text()").extract()

    如何加入请求头?

      scrapy shell -s user-agent='省略' url

    scrapy shell -s USER_AGENT="Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.86 Safari/537.36" http://www.cnblogs.com/2bjiujiu/
  • 相关阅读:
    1053: 正弦函数
    1052: 数列求和4
    1051: 平方根的和
    1050: 阶乘的累加和
    POJ 1321 棋盘问题(搜索的方式)
    HDU 1176 免费馅饼
    BZOJ 2423 (求LCS的长度和种类数)
    HDU 2612 (2次BFS,有点小细节)
    POJ 1088 滑雪(模板题 DFS+记忆化)
    HRBUST 1186 青蛙过河 (思路错了)
  • 原文地址:https://www.cnblogs.com/2bjiujiu/p/7237430.html
Copyright © 2011-2022 走看看