zoukankan      html  css  js  c++  java
  • 初学爬虫,关于scrapy

    对于anaconda与pycharm,因为在pycharm中一直下不成功tensorflow,所以后来又下了anaconda,pycharm就可以直接使用anaconda的编译器,

    一直都很正常,但是,就scrapy而言,在anaconda成功使用,但是,pycharm就不成功,一直显示不存在该包。

    就只能用pycharm上修改代码,anaconda的prompt下执行代码。

    1、在终端输入scrapy startproject XX,就表明在该包下创建scrapy项目XX

    2、输入scrapy genspider news www.baidu.com,就是表明要爬www.baidu.com,同时在scrapy项目下的spiders新建news.py

    3、终端中执行的代码为scrapy crawl news

    4、如果想要爬网站,最好将项目中setting.py中 

    ROBOTSTXT_OBEY变为False, 

    为了查看更方便可以增加 , LOG_LEVEL='WARNING'

    为了访问网站成功,将DEFAULT_REQUEST_HEADERS中增加User-Agent

    5、可以将start_urls改为真正想要访问的网站,上面创建时的网站,只是域网。

    6、执行,在终端中输入scrapy crawl new

    7、如果要保存在json下,则可以

                author = response.xpath('//div[@id="info"]//p[1]/text()').extract()
                content = response.xpath('//div[@id="intro"]//p/text()').extract()
                yield{
                    "content" : content
                    "author" : author
                }

    8、简单的执行方法可以,建一个run.py,然后,在有该文件下,直接在终端输入python run.py

    from scrapy import cmdline
    
    cmdline.execute("XX".split())
  • 相关阅读:
    memwatch使用简化
    memwatch检测内存泄露
    mtrace检测内存泄露
    2.14 环境变量及参数
    设计模式[索引]
    二叉树遍历
    AppCan 双击返回按钮退出应用
    MySQL语句相关经验总结
    mysql连接失败或出现“Too many connections”错误
    让IE的Button自适应文字宽度兼容
  • 原文地址:https://www.cnblogs.com/wzwi/p/10725746.html
Copyright © 2011-2022 走看看