zoukankan      html  css  js  c++  java
  • 初学爬虫,关于scrapy

    对于anaconda与pycharm,因为在pycharm中一直下不成功tensorflow,所以后来又下了anaconda,pycharm就可以直接使用anaconda的编译器,

    一直都很正常,但是,就scrapy而言,在anaconda成功使用,但是,pycharm就不成功,一直显示不存在该包。

    就只能用pycharm上修改代码,anaconda的prompt下执行代码。

    1、在终端输入scrapy startproject XX,就表明在该包下创建scrapy项目XX

    2、输入scrapy genspider news www.baidu.com,就是表明要爬www.baidu.com,同时在scrapy项目下的spiders新建news.py

    3、终端中执行的代码为scrapy crawl news

    4、如果想要爬网站,最好将项目中setting.py中 

    ROBOTSTXT_OBEY变为False, 

    为了查看更方便可以增加 , LOG_LEVEL='WARNING'

    为了访问网站成功,将DEFAULT_REQUEST_HEADERS中增加User-Agent

    5、可以将start_urls改为真正想要访问的网站,上面创建时的网站,只是域网。

    6、执行,在终端中输入scrapy crawl new

    7、如果要保存在json下,则可以

                author = response.xpath('//div[@id="info"]//p[1]/text()').extract()
                content = response.xpath('//div[@id="intro"]//p/text()').extract()
                yield{
                    "content" : content
                    "author" : author
                }

    8、简单的执行方法可以,建一个run.py,然后,在有该文件下,直接在终端输入python run.py

    from scrapy import cmdline
    
    cmdline.execute("XX".split())
  • 相关阅读:
    Pyinstaller(python打包为exe文件)
    matplotlib 填充颜色
    Visual Studio 2015 Enterprise
    latex中pdflatex与xelatex的区别
    latex插图续
    dva+umi+antd项目从搭建到使用(没有剖验证,不知道在说i什么)
    umi+dva+antd新建项目(亲测可用)
    HTTP缓存机制
    企业网站常见需求整理
    立足于运维与监控的前端框架 NoahV
  • 原文地址:https://www.cnblogs.com/wzwi/p/10725746.html
Copyright © 2011-2022 走看看