zoukankan      html  css  js  c++  java
  • scrapy使用笔记

    新建项目

    在需要新建项目的目录下发指令

    scrapy startproject MySpider
    

    其中MySpider为工程的名字,会新建一个文件夹

    进入工程目录
    新建一个爬虫

    scrapy genspider test "www.baidu.com"
    

    test是爬虫名字
    网址是允许爬取的网站,不需要带HTTP://

    执行爬虫文件:

    scrapy crawl test
    

    test是爬虫名字

    如何在pycharm下直接点RUN运行

    只需要在pycharm中的Run下Edit Configurations...中做运行配置即可

    这样就可以直接点RUN,看效果,不用去再输入指令了

    scrapy保存信息方法(也可以管道文件内写保存):

    # json格式,默认为unicode编码
    scrapy crawl test -o test.json
    # csv 逗号表达式,可以用excel打开
    scrapy crawl test -o test.csv
    #xml格式
    scrapy crawl test -o test.xml
    

    工程内的文件总结:

    • items.py 主要声明的类的键s
    • spiders文件夹下写爬虫,爬取数据 yield item返回给管道
    • pipelines.py 获取到item处理,可以做保存处理等
    • settings.py 可以使能管道等设置信息
  • 相关阅读:
    BZOJ 3218: a + b Problem
    P4542 [ZJOI2011]营救皮卡丘
    P4843 清理雪道
    P4553 80人环游世界
    P4126 [AHOI2009]最小割
    P2619 [国家集训队2]Tree I
    P2469 [SDOI2010]星际竞速
    P2050 [NOI2012]美食节
    易语言入门
    jdbc连接oracle语法
  • 原文地址:https://www.cnblogs.com/Mysterious/p/8965016.html
Copyright © 2011-2022 走看看