zoukankan      html  css  js  c++  java
  • scrapy使用笔记

    新建项目

    在需要新建项目的目录下发指令

    scrapy startproject MySpider
    

    其中MySpider为工程的名字,会新建一个文件夹

    进入工程目录
    新建一个爬虫

    scrapy genspider test "www.baidu.com"
    

    test是爬虫名字
    网址是允许爬取的网站,不需要带HTTP://

    执行爬虫文件:

    scrapy crawl test
    

    test是爬虫名字

    如何在pycharm下直接点RUN运行

    只需要在pycharm中的Run下Edit Configurations...中做运行配置即可

    这样就可以直接点RUN,看效果,不用去再输入指令了

    scrapy保存信息方法(也可以管道文件内写保存):

    # json格式,默认为unicode编码
    scrapy crawl test -o test.json
    # csv 逗号表达式,可以用excel打开
    scrapy crawl test -o test.csv
    #xml格式
    scrapy crawl test -o test.xml
    

    工程内的文件总结:

    • items.py 主要声明的类的键s
    • spiders文件夹下写爬虫,爬取数据 yield item返回给管道
    • pipelines.py 获取到item处理,可以做保存处理等
    • settings.py 可以使能管道等设置信息
  • 相关阅读:
    小程序 筛选
    Travel 项目环境配置
    ajax
    vue 项目编译打包
    自学网
    使用npm打包vue项目
    vue音乐播放器项目 二级路由跳转
    better-scroll (下拉刷新、上拉加载)
    Linux命令
    hibernate存储过程 3
  • 原文地址:https://www.cnblogs.com/Mysterious/p/8965016.html
Copyright © 2011-2022 走看看