zoukankan      html  css  js  c++  java
  • scrapy工程创建及pycharm运行

    1.通过命令行创建scrapy工程项目
    scrapy startproject (工程名)

    scrapy startproject myxml

    2.利用爬虫模板设置爬虫文件
    在这个过程中我们可以先利用 scrapy genspider -l(小写的L)命令查看当前的爬虫模板
    如:scrapy genspider -t 模板名 爬虫文件名 允许的域名

    scrapy genspider -t xmlfeed myxmlspider sina.com.cn

    注释:
    scrapy genspider -l 查看当前可以使用的爬虫模板
    scrapy genspider -t 创建爬虫文件

    3.将scrapy工程项目导入到pycharm中


    4.编写Item文件(items.py),定义需要关注的数据

    import scrapy
    class ..(scrapy.Item):
    name = scrapy.Field()
    email = scrapy.Field()
    ...

    5.编写爬虫文件(如上面的myxmlspider.py)


    6.编辑scrapy在pycharm的运行环境
    在Run中选择Edit Configuration
    点击"+"创建一个"Python"
    相关配置如下:


  • 相关阅读:
    构建之法阅读笔记05
    构建之法阅读笔记04
    构建之法阅读笔记03
    构建之法阅读笔记02
    构建之法阅读笔记01
    管理系统的简单解析---web
    Java中的异常处理
    多态
    重写与重载
    抽象类与接口
  • 原文地址:https://www.cnblogs.com/xiaomingzaixian/p/7119160.html
Copyright © 2011-2022 走看看