zoukankan      html  css  js  c++  java
  • scrapy工程创建及pycharm运行

    1.通过命令行创建scrapy工程项目
    scrapy startproject (工程名)

    scrapy startproject myxml

    2.利用爬虫模板设置爬虫文件
    在这个过程中我们可以先利用 scrapy genspider -l(小写的L)命令查看当前的爬虫模板
    如:scrapy genspider -t 模板名 爬虫文件名 允许的域名

    scrapy genspider -t xmlfeed myxmlspider sina.com.cn

    注释:
    scrapy genspider -l 查看当前可以使用的爬虫模板
    scrapy genspider -t 创建爬虫文件

    3.将scrapy工程项目导入到pycharm中


    4.编写Item文件(items.py),定义需要关注的数据

    import scrapy
    class ..(scrapy.Item):
    name = scrapy.Field()
    email = scrapy.Field()
    ...

    5.编写爬虫文件(如上面的myxmlspider.py)


    6.编辑scrapy在pycharm的运行环境
    在Run中选择Edit Configuration
    点击"+"创建一个"Python"
    相关配置如下:


  • 相关阅读:
    C#引用类型详细剖析(转)
    wcf问题集锦
    Emgu CV 初试
    C#语言使用习惯
    多线程和消息机制
    ArrayAdapter
    SimpleAdapter
    删除对话框
    HTML制作个人简历
    冒泡排序
  • 原文地址:https://www.cnblogs.com/xiaomingzaixian/p/7119160.html
Copyright © 2011-2022 走看看